Extracción de conocimiento sobre datos financieros

Bouhorma, Mahmoud (2022). Extracción de conocimiento sobre datos financieros. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Extracción de conocimiento sobre datos financieros
Author/s:
  • Bouhorma, Mahmoud
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: January 2022
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_MAHMOUD_BOUHORMA.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (8MB)

Abstract

Hoy en día estamos en un mundo cada vez más digitalizado, la tecnología está conviviendo e interactuando cada vez más con nuestras vidas cotidianas, puede llegar hasta ciertos puntos donde forma parte total de la vida de muchas personas, cualquier pequeña tarea se puede simplificar gracias a la digitalización. En consecuente a esto se generó una cantidad enorme de datos. El primer problema que surgió derivado de este fenómeno ha sido: donde poder almacenar estos datos generados. Pero gracias al avance extraordinario realizado en las tecnologías de almacenamiento masivo de datos, se puede afirmar con certeza, que disponemos de una cantidad casi infinita de almacenamiento, por lo que, por ahora este problema está resuelto. El segundo problema que surgió con los datos, fue que, a la hora de desarrollar tecnologías para el almacenamiento de datos masivos, nos dimos cuenta que se necesitaba otra tecnología para poder gestionar esta cantidad estratosférica de datos, los medios convencionales no eran aptos para procesar este volumen de datos, lo que llevo al cabo la creación de la tecnología de Big Data. Una vez resueltos los dos problemas principales causados por esta enorme generación de datos, nos dimos cuenta de que se podría sacar información adicional sobre esos datos. Por ejemplo, si una empresa de venta de automóviles guarda el historial de ventas, incluyendo solamente: el tipo, color y combustible del coche, y el sexo, edad y domicilio del conductor/cliente, para cada venta. Se puede sacar mucha información adicional a partir de estos datos. A saber; los tipos de coches que prefiere cada sexo o edad, o también el combustible y color que prefieren en cada zona de la ciudad o país, entre muchas más otras combinaciones. Con el fin de sacar provecho comercial a este almacenamiento de datos, aplicándolo a la publicidad dirigida. Esto dio lugar a lo que se conoce como Data Analysis. En este proyecto, me gustaría profundizar en una de las técnicas de Data Analysis, que consiste en extraer conocimiento de una base de datos, usando un modelo probabilístico de regresión lineal. Como ejemplo he decidido aplicar esta técnica sobre una base de datos formada por información financiera de los diferentes estados que componen Estados Unidos, durante un periodo de 17 años. Con el fin de poder encontrar patrones entre los diferentes datos, ver que tan bien los datos pueden predecirse los unos a los otros y así saber mejor cómo se comportan. El objetivo sería tener una idea más generalizada de los datos, en otras palabras, dejar que los números hablen. Para ello he tenido que familiarizarme con los conceptos estadísticos que forman un modelo de regresión lineal, conocer en más profundidad los datos, realizando resúmenes estadísticos descriptivos y gráficos sobre ellos. Hasta finalmente poder realizar el cálculo estadístico. Una vez realizado este cálculo, me ha generado una cantidad importante de información que, a través de su análisis, y comparación con otros datos generados, pude sacar ciertas conclusiones sobre la base de datos y sus variables, así como los diferentes componentes estadísticos generados.---ABSTRACT---Nowadays we are in an increasingly digitized world, technology is coexisting and interacting more and more with our daily lives, it can reach extreme points where it is a total part of many people's lives, any small task can be simplified thanks to digitization. This leads to the generation of an enormous amount of data. The first problem that arose from this phenomenon was: where to store this generated data. But thanks to the extraordinary progress made in mass data storage technologies, it can be said with certainty, that we have an almost infinite amount of storage, so for now this problem is solved. The second problem that arose with the data was that, when developing technologies for mass data storage, we realized that another technology was needed to manage this stratospheric amount of data, conventional means were not suitable for processing this volume of data, which led to the creation of Big Data technology. Once we solved the two main problems caused by this enormous data generation, we realized that there is additional information that could be extracted from that data. For example, if a car sales company keeps their sales history, including just: the type, color and fuel of the car, and the gender, age and address of the driver/customer, for each sale. A lot of additional information can be derived from this data. For example; the types of cars preferred by each sex or age, or also the fuel and color preferred by each area of the city or country, among many other combinations. In order to take commercial advantage of this data storage, applying it to targeted advertising. This gave rise to what is known as Data Analysis. In this project, I would like to delve into one of the techniques of Data Analysis, which consists of extracting knowledge from a database, using a probabilistic linear regression model. As an example, I have decided to apply this technique on a database composed of financial data from the different states that of the United States of America, over a period of 17 years. In order to be able to find patterns among the different data, to see how well the data can predict each other and to know better how they behave. The goal would be to get a more generalized idea of the data, in other words, to let the numbers do the talking. To do this I had to familiarize myself with the statistical concepts that make up a linear regression model, get to know the data in more depth, making descriptive and statistical summaries on them, and adding some graphics too. Until finally being able to perform the statistical calculation. Once this calculation was done, it generated an important amount of information that, through its analysis and comparison with other generated data, I was able to draw certain conclusions and information about the database and its variables, as well as the different statistical components generated.

More information

Item ID: 69845
DC Identifier: https://oa.upm.es/69845/
OAI Identifier: oai:oa.upm.es:69845
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 22 Feb 2022 10:32
Last Modified: 22 Feb 2022 10:32
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM