Stock forecasting utilizing news sentiment data: a comparative study

Ruiz-Tagle Oriol, Juan Luis (2023). Stock forecasting utilizing news sentiment data: a comparative study. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Stock forecasting utilizing news sentiment data: a comparative study
Author/s:
  • Ruiz-Tagle Oriol, Juan Luis
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_JUAN_LUIS_RUIZ-TAGLE_ORIOL.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (22MB)

Abstract

Stock market forecasting has become a promising field of research, leveraging data science, deep learning, and available advanced computing power. Despite the inherent randomness of stocks, patterns and correlations can be identified to predict trends to some extent. Researchers analyze vast amounts of data using machine learning techniques to identify factors influencing stock prices, such as economic indicators and news events. Successfully predicting stock trends can lead to significant profits for investors and strategic advantages for businesses. Natural Language Processing (NLP) has also made remarkable progress in the latest years, particularly in understanding and generating language. In finance, NLP techniques are used to analyze financial news articles, extracting insights and sentiment to inform investment decisions. However, it should be noted that other factors, such as non-public information and trading algorithms, may influence stock market trends beyond what is captured in news articles.

The objective of this thesis is to test different models used for stock forecasting and verify whether the inclusion of news data improves their prediction performance in tasks like regressing next-day returns or estimating the direction of the stock (classification). Within each model family, the comparison involves evaluating models trained with financial data alone against models trained with both financial data and news data. Finally, an investment strategy is devised to assess the performance of the classification models.

Notably, the analysis verifies that news data can provide some added value in the classification task when combined with financial data. Thus, this research confirms the studied literature in that news data can enhance prediction accuracy in specific scenarios, providing insights into the potential benefits of incorporating this information into stock market forecasting models.

It is important to highlight that the thesis’ primary goal is not to introduce novel concepts, since the inclusion of newspaper data for stock modelling is already a widely studied topic. Rather, this research aims to make a comparative analysis of the strengths and weaknesses of different models applied to stock market prediction, shedding light on the suitability of using newspaper sentiment data to address this problem.

RESUMEN

La predicción del mercado de valores ha surgido como un campo de investigación prometedor, haciendo uso de la ciencia de datos, el deep learning y el poder de computación avanzado. A pesar de la naturaleza aleatoria de las acciones, es posible identificar patrones y correlaciones que permiten predecir tendencias hasta cierto punto. Investigadores analizan grandes volúmenes de datos utilizando técnicas de aprendizaje automático para identificar factores que influyen en el precio de las acciones, como indicadores económicos y eventos notables. El éxito en la predicción de las tendencias del mercado de valores puede generar beneficios significativos para inversores y ventajas estratégicas para empresas.

En los últimos años, el Procesamiento de Lenguaje Natural (NLP) ha avanzado notablemente, especialmente en la comprensión y generación de lenguaje. En el ámbito financiero, se utilizan técnicas de NLP para analizar artículos de noticias financieras, extrayendo percepciones y sentimientos que pueden informar las decisiones de inversión. Sin embargo, es importante tener en cuenta que otros factores, como la información privada y algoritmos de trading, pueden influir en las tendencias del mercado de valores más allá de lo que se captura en los artículos de noticias.

El objetivo de esta tesis es probar diferentes modelos utilizados en la predicción de acciones y verificar si la inclusión de datos de noticias mejora su rendimiento predictivo en tareas como la predicción de los rendimientos de las acciones a un día vista o la estimación de su dirección (clasificación). Dentro de cada familia, se evalúan modelos entrenados exclusivamente con datos financieros en contraposición a modelos que incorporan tanto datos financieros como datos de noticias. Finalmente, se desarrolla una estrategia de inversión para evaluar el rendimiento de los modelos de clasificación.

El análisis realizado demuestra que los datos de noticias pueden agregar valor en la tarea de clasificación cuando se combinan con datos financieros. Por lo tanto, esta investigación respalda la literatura existente que indica que los datos de noticias pueden mejorar la precisión de la predicción en escenarios específicos, brindando información sobre los posibles beneficios de incorporar esta información en modelos de pronóstico del mercado de valores.

Es importante destacar que el objetivo principal de esta tesis no es introducir conceptos novedosos, ya que la inclusión de datos de noticias en la modelización de acciones ha sido ampliamente estudiada. En cambio, el objetivo de esta investigación es realizar un análisis comparativo de las fortalezas y debilidades de diferentes modelos aplicados a la predicción del mercado de valores, y arrojar luz sobre la conveniencia de utilizar datos de sentimientos de noticias para abordar este problema.

More information

Item ID: 75825
DC Identifier: https://oa.upm.es/75825/
OAI Identifier: oai:oa.upm.es:75825
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Sep 2023 11:27
Last Modified: 13 Sep 2023 11:27
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM