Abstract
En los mercados bursátiles de alta frecuencia se opera a través del High Frecuency Trading (HFT). Este se caracteriza por el uso de ordenadores que aplican algoritmos informáticos que analizan e interpretan las señales y condiciones del mercado a gran velocidad; y, en respuesta a las mismas, introducen órdenes de compra y venta en el mercado de manera automática en un período de tiempo muy corto.
La velocidad de procesamiento de estas operaciones actualmente ronda los milisegundos. Por lo tanto, para ser considerado un High Frecuency Trader se debe emplear tecnología con muy baja latencia (tiempo que pasa desde que se trasmite la orden hasta que esta se ejecuta), una conexión de alta velocidad y bajo retardo al mercado para la introducción de órdenes, y un alta tasa de envío de órdenes y cancelación de las mismas.
Una de las principales estrategias competitivas de los High Frecuency Traders es la disminución de la distancia entre el servidor de la plataforma de negociación y el suyo propio. Así, se reduce el tiempo de conexión, con lo que se puede operar con mayor agilidad y rapidez al reducir la latencia de las órdenes hasta tiempos de respuesta menores de una centésima de milisegundo. Para conseguir esto, hay que utilizar los servicios de co-location que ofrecen las propias bolsas.
La única manera de conseguir una ventaja competitiva será mejorando los algoritmos informáticos que analizan e interpretan las señales del mercado, y tratando así de predecir cómo va a evolucionar este para poder posicionarte antes que tus competidores.
Para lograrlo, se va a emplear la minería de datos, que consiste en el estudio y tratamiento de datos masivos para extraer conclusiones e información relevante. Mediante estos procedimientos, se analizaran los datos históricos intradía de diferentes valores bursátiles para encontrar los patrones de comportamiento y las relaciones entre ellos que se producen a lo largo del tiempo. Y así, desarrollar un modelo de predicción que sea capaz de estimar a unos pocos minutos los precios de estos valores.
La primera fase del proceso de minería de datos consiste en la preparación de estos para mejorar la calidad del conjunto de datos, y poder elaborar un modelo que genere mayor y mejor información. Los datos de los que partimos son series temporales de precios intradía de diferentes valores de la bolsa de Madrid, a lo largo de un mes.
A continuación, se exploran los datos previamente preparados para determinar si la información que nos proporcionan, a priori, sirve a nuestro propósito que es elaborar un modelo de predicción de precios de valores bursátiles. Posteriormente, se realizará un estudio de las correlaciones entre los distintos valores bursátiles, con el fin de analizar si existen relaciones entre ellos, mediante la correlación lineal de Pearson.
En este estudio de las correlaciones, se realizan 5 experimentos distintos. En cada uno de ellos se ha escogido una muestra de un día de actividad bursátil, de forma que cada experimento sea lo más aleatorio posible; y así, tener una idea general de las relaciones que hay entre los valores a lo largo del mes. Como resultado de este estudio, podemos afirmar que existe una relación lineal, en mayor o menor medida, entre los distintos valores bursátiles. Además, la correlación entre ellos puede mejorar al mover hacia delante o hacia atrás en el tiempo (lag positivo o negativo) la serie temporal de precios de un valor respecto al otro. De esta forma, un valor podría ser predictor adelantado del valor que se quiere estimar, pudiendo ser esta relación útil a la hora de elaborar el modelo de predicción.
Ya conociendo más a fondo los datos que vamos a utilizar, podemos pasar a la elaboración del modelo. Un modelo de minería de datos consiste en el análisis de una estructura de datos, mediante el uso de un determinado algoritmo, para extraer patrones y reglas que, a su vez, pueden aplicarse a otros datos para obtener información. Para lograr el mejor modelo de predicción vamos a analizar diferentes casos: variando el número de valores a predecir en el tiempo, el algoritmo usado, o el tamaño de la estructura de datos a entrenar.
Todas estas opciones de estructura de datos se evaluarán con los siguientes algoritmos: lineal, máquina de vectores de soporte y random forest.
Una vez se han elaborado y validado todos los casos de modelos de minería de datos previamente descritos, se analizan los resultados conseguidos. Algunas de las conclusiones obtenidas son:
- El error obtenido es manejable desde un punto de vista operativo, situándose en torno a 0.002-0.04, equivalente al 0.03-0.6%.
- Los modelos no lineales ofrecen mejores resultados que los lineales. Siendo significativamente menor el error de predicción al emplear el algoritmo no lineal random forest en todos los casos.
- En general, los modelos muestran limitaciones a la hora de predecir un cambio abrupto de tendencia, aumentando el error en estos casos.
- Los modelos de predicción a 5 minutos estiman notablemente mejor estos cambios de tendencia que los que son a más tiempo (10, 15 y 20 minutos).
- Es conveniente emplear modelos que incluyan los precios de un valor correlacionado con el que se quiere estimar, ya que mejoran el modelo en mayor o menor medida. Además, pueden ayudar a predecir mejor los cambios bruscos de tendencia.