Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
Sanguino Bautiste, Francisco Javier (2020). Clasificación de clips de vídeo mediante soluciones basadas en Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).
Title: | Clasificación de clips de vídeo mediante soluciones basadas en Deep Learning |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación |
Date: | 2020 |
Subjects: | |
Freetext Keywords: | Aprendizaje profundo, clasificación de vídeo, Redes Neuronales Convolucionales, Redes Neuronales Recurrentes, algoritmo supevisado |
Faculty: | E.T.S.I. Telecomunicación (UPM) |
Department: | Señales, Sistemas y Radiocomunicaciones |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
procesadores ha posibilitado el entrenamiento y ejecución de estos algoritmos, basados en Redes Neuronales.
Concretamente, el campo de la Visión Artificial se ha visto beneficiado de este tipo de algoritmos
debido a la equivalencia entre las Redes Neuronales Convolucionales y los filtros. En estos algoritmos,
la Red Neuronal aprende los parámetros que mejor se ajustan a los datos de entrada. Un problema que
se puede resolver con estas técnicas es la clasificación de clips de un vídeo. Sin embargo, en los vídeos
surge la cuestión del tratamiento de la dimensión temporal.
El objetivo de este trabajo es comparar el rendimiento de dos tipos de Redes Neuronales (Convolucionales
y Recurrentes) en el tratamiento de la dimensión temporal. Para ello, se ha utilizado un conjunto
de datos de naturaleza secuencial, el Breakfast Dataset, que muestra recetas de cocina con etiquetas de
acciones como coger o pelar. Se ha seguido una metodología lo más exhaustiva posible, proponiendo
estrategias para reducir el tiempo de entrenamiento de las redes. Ambas redes se componen de una red
troncal que extrae características de los cuadros de los vídeos. Estas características se introducen en una
Red Neuronal de cada tipo para fusionar los distintos cuadros y tratar la dimensión temporal.
Tras la utilización de diversas técnicas como el cálculo de matrices de confusión o la representación
de los resultados gracias al algoritmo t-SNE, se concluyó que la Redes Neuronales Recurrentes tienen
un 10% más de precisión que las Convolucionales con un tiempo de procesamiento similar.
Item ID: | 62913 |
---|---|
DC Identifier: | https://oa.upm.es/62913/ |
OAI Identifier: | oai:oa.upm.es:62913 |
Deposited by: | Biblioteca ETSI Telecomunicación |
Deposited on: | 07 Jul 2020 10:29 |
Last Modified: | 07 Jul 2020 10:29 |