Abstract
procesadores ha posibilitado el entrenamiento y ejecución de estos algoritmos, basados en Redes Neuronales.
Concretamente, el campo de la Visión Artificial se ha visto beneficiado de este tipo de algoritmos
debido a la equivalencia entre las Redes Neuronales Convolucionales y los filtros. En estos algoritmos,
la Red Neuronal aprende los parámetros que mejor se ajustan a los datos de entrada. Un problema que
se puede resolver con estas técnicas es la clasificación de clips de un vídeo. Sin embargo, en los vídeos
surge la cuestión del tratamiento de la dimensión temporal.
El objetivo de este trabajo es comparar el rendimiento de dos tipos de Redes Neuronales (Convolucionales
y Recurrentes) en el tratamiento de la dimensión temporal. Para ello, se ha utilizado un conjunto
de datos de naturaleza secuencial, el Breakfast Dataset, que muestra recetas de cocina con etiquetas de
acciones como coger o pelar. Se ha seguido una metodología lo más exhaustiva posible, proponiendo
estrategias para reducir el tiempo de entrenamiento de las redes. Ambas redes se componen de una red
troncal que extrae características de los cuadros de los vídeos. Estas características se introducen en una
Red Neuronal de cada tipo para fusionar los distintos cuadros y tratar la dimensión temporal.
Tras la utilización de diversas técnicas como el cálculo de matrices de confusión o la representación
de los resultados gracias al algoritmo t-SNE, se concluyó que la Redes Neuronales Recurrentes tienen
un 10% más de precisión que las Convolucionales con un tiempo de procesamiento similar.