Predicción de fluctuaciones de la Bolsa basado en las noticias

Rodríguez Rodríguez, Manuel (2019). Predicción de fluctuaciones de la Bolsa basado en las noticias. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Predicción de fluctuaciones de la Bolsa basado en las noticias
Author/s:
  • Rodríguez Rodríguez, Manuel
Contributor/s:
  • Zanardini, Damiano
Item Type: Final Project
Degree: Grado en Matemáticas e Informática
Date: June 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (352kB) | Preview

Abstract

Este proyecto consiste en la implementación de un algoritmo de aprendizaje automático que, a partir de las noticias (de toda índole) más importantes a nivel mundial, intente predecir cómo se verán afectados los principales índices bursátiles del mundo. Para este estudio, se han elegido índices relevantes de las principales zonas económicas, como son: GSPC. S&P500. [1] El índice Standard & Poor’s 500 (Standard & Poor’s 500 Index), también conocido como S&P 500 es uno de los índices bursátiles más importantes de Estados Unidos. Al S&P 500 se lo considera el índice más representativo de la situación real del mercado. El índice se basa en la capitalización bursátil de 500 grandes empresas que cotizan en las bolsas NYSE o NASDAQ y captura aproximadamente el 80 % de toda la capitalización de mercado en Estados Unidos. ILF. S&P Latin America 40. [2] El S&P Latin America 40 es un índice bursátil de Standard & Poor’s. Realiza un seguimiento del mercado bursátil latinoamericano. El S&P Latin America 40 es uno de los siete índices principales que componen el S&P Global 1200 e incluye valores altamente líquidos de los principales sectores económicos de los mercados de renta variable mexicanos y sudamericanos. En este índice están representadas empresas de Brasil, Chile, Colombia, México y Perú, y representa aproximadamente el 70 % de la capitalización bursátil de cada país. Proporciona cobertura de los componentes líquidos de gran capitalización de cada país clave de América Latina. N225. Nikkei 225. [3] Nikkei 225, comúnmente denominado índice Nikkei, es el índice bursátil más popular del mercado japonés. Lo componen los 225 valores más líquidos que cotizan en la Bolsa de Tokio. Desde 1971, lo calcula el periódico Nihon Keizai Shinbun (Diario Japonés de los Negocios), de cuyas iniciales proviene el nombre del índice. SPEUP. S&P Europe 350. [4] El S&P Europe 350 Index es un índice bursátil de valores europeos. Es parte del S&P Global 1200. Las acciones constituyentes se seleccionan en función de su relevancia para el mercado en general, incluyendo el equilibrio del sector industrial, la longevidad (para minimizar la rotación del índice) y la liquidez de las acciones.STOXX50E. Euro Stoxx 50. [5] El EURO STOXX 50 es un índice bursátil de valores de la zona euro diseñado por STOXX, un proveedor de índices propiedad de Deutsche Börse Group. Según STOXX, su objetivo es "proporcionar una representación de primer orden de los líderes de Supersector en la Eurozona". Se compone de cincuenta de las mayores y más líquidas existencias. Los futuros y opciones sobre índices del EURO STOXX 50, negociados en Eurex, se encuentran entre los productos de este tipo más líquidos de Europa y del mundo. SHA: 000001. SSE Composite Index. [6] El SSE Composite Index es un índice bursátil con todos los valores (acciones clase A y clase B) que se negocian en la bolsa de Shanghái - Shanghai Stock Exchange (SSE). El desarrollo de este trabajo ha consistido, en primer lugar, en un análisis del lenguaje sobre los titulares, en dos fases: primero extrayendo el sentimiento, es decir, lo positivo o negativo que sea el titular de la noticia y en segundo lugar, extrayendo los conceptos contenidos en el mismo. Por ejemplo, si el titular de la noticia es: “May’s Brexit Deal Defeated 202-432” Las entidades extraídas serían May, por la política inglesa Theresa May y Brexit, el conocido proceso de independencia británica que tanta relevancia ha adquirido en los últimos meses. Junto con estos conceptos, se extrae también el análisis de sentimiento, resumido en un valor entre -1 y 1, que nos indicará si el titular es positivo o negativo. En conjunción con las fluctuaciones en el valor de los índices anteriormente mencionados se prepara el sistema para que la máquina pueda aprender de los datos históricos y ser, de esta forma, capaz de emitir predicciones en base a los eventos más notables de un período de tiempo. A nivel técnico, la base de todo el trabajo se ha realizado en el lenguaje de programación Python, muy utilizado en el campo de la Inteligencia Artificial y el Machine Learning, en inglés, también conocido como Aprendizaje Automático en español. Además, se han utilizado una serie de librerías para este lenguaje, de las cuales podemos destacar Pandas, NumPy y scikit-learn.---ABSTRACT---The aim of this project has been to implement a machine learning algorithm that, based on the most relevant worldwide news, tries to predict how the main stock market indexes around the world will be aected. For this study, relevant indexes of the main economic zones have been chosen, such as: GSPC. S&P500. [1] The S&P 500, or just the S&P, is an American stock market index based on the market capitalizations of 500 large companies having common stock listed on the NYSE, NASDAQ, or the Cboe BZX Exchange. ILF. S&P Latin America 40. [2] The S&P Latin America 40 is a stock market index from Standard & Poor’s that tracks Latin American stocks. The S&P Latin America 40 is one of seven headline indices making up S&P Global 1200 and includes highly liquid securities from major economic sectors of Mexican and South American equity markets. Companies from Brazil, Chile, Colombia, Mexico and Peru are represented in this index, accounting for approximately 70 % of each country’s market capitalization. This index provides coverage of the large cap, liquid constituents of each key country in Latin America. N225. Nikkei 225. [3] The Nikkei 225, more commonly called the Nikkei, the Nikkei index, or the Nikkei Stock Average, is a stock market index for the Tokyo Stock Exchange (TSE). It has been calculated daily by the Nihon Keizai Shinbun (The Nikkei) newspaper since 1950. It is a price-weighted index, operating in the Japanese Yen, and its components are reviewed once a year. The Nikkei measures the performance of 225 large, publicly owned companies in Japan from a wide array of industry sectors. SPEUP. S&P Europe 350. [4] The S&P Europe 350 Index is a stock index of European stocks. It is a part of the S&P Global 1200. The constituent shares are selected for relevance to the broad market, including industry sector balance, longevity (to minimize index turnover) and liquidity of the shares. STOXX50E. Euro Stoxx 50. [5] The EURO STOXX 50 is a stock index of Eurozone stocks designed by STOXX, an index provider owned by Deutsche Börse Group. According to STOXX, its goal is "to provide a blue-chip representation of Supersector leaders in the Eurozone". It is made up of fifty of the 4 largest and most liquid stocks. The index futures and options on the EURO STOXX 50, traded on Eurex, are among the most liquid such products in Europe and the world. SHA: 000001. SSE Composite Index. [6] The SSE Composite Index also known as SSE Index is a stock market index of all stocks (A shares and B shares) that are traded at the Shanghai Stock Exchange. The development has consisted, in the first place, of a language analysis on the headlines, extracting the sentiment, in other words, how positive or negative the headline is, together with the main concepts that appear in it. For example, if the headline were: “May’s Brexit Deal Defeated 202-432” The entities extracted would be May, referring the English politician Theresa May and Brexit, the well-known process of British independence that has acquired so much relevance in recent months. Along with these concepts, the sentiment analysis is also extracted, summarized in a value between -1 and 1, which will indicate whether the headline is positive or negative. In conjunction with the fluctuations in the value of the indexes mentioned above, the system is prepared so that the machine can learn from historical data and thus be able to issue predictions based on the most remarkable events from a period of time. From a technical point of view, the core of all the work has been done under the Python programming language, widely used in the field of Artificial Intelligence and Machine Learning, along with a series of libraries, such as Pandas, NumPy and scikit-learn.

More information

Item ID: 55595
DC Identifier: http://oa.upm.es/55595/
OAI Identifier: oai:oa.upm.es:55595
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 26 Jun 2019 09:56
Last Modified: 26 Jun 2019 09:57
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM