Clasificación de clips de vídeo mediante soluciones basadas en Deep Learning

Sanguino Bautiste, Francisco Javier (2020). Clasificación de clips de vídeo mediante soluciones basadas en Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).

Description

Title: Clasificación de clips de vídeo mediante soluciones basadas en Deep Learning
Author/s:
  • Sanguino Bautiste, Francisco Javier
Contributor/s:
  • García Santos, Narciso
Item Type: Final Project
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Date: 2020
Subjects:
Freetext Keywords: Aprendizaje profundo, clasificación de vídeo, Redes Neuronales Convolucionales, Redes Neuronales Recurrentes, algoritmo supevisado
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

procesadores ha posibilitado el entrenamiento y ejecución de estos algoritmos, basados en Redes Neuronales. Concretamente, el campo de la Visión Artificial se ha visto beneficiado de este tipo de algoritmos debido a la equivalencia entre las Redes Neuronales Convolucionales y los filtros. En estos algoritmos, la Red Neuronal aprende los parámetros que mejor se ajustan a los datos de entrada. Un problema que se puede resolver con estas técnicas es la clasificación de clips de un vídeo. Sin embargo, en los vídeos surge la cuestión del tratamiento de la dimensión temporal. El objetivo de este trabajo es comparar el rendimiento de dos tipos de Redes Neuronales (Convolucionales y Recurrentes) en el tratamiento de la dimensión temporal. Para ello, se ha utilizado un conjunto de datos de naturaleza secuencial, el Breakfast Dataset, que muestra recetas de cocina con etiquetas de acciones como coger o pelar. Se ha seguido una metodología lo más exhaustiva posible, proponiendo estrategias para reducir el tiempo de entrenamiento de las redes. Ambas redes se componen de una red troncal que extrae características de los cuadros de los vídeos. Estas características se introducen en una Red Neuronal de cada tipo para fusionar los distintos cuadros y tratar la dimensión temporal. Tras la utilización de diversas técnicas como el cálculo de matrices de confusión o la representación de los resultados gracias al algoritmo t-SNE, se concluyó que la Redes Neuronales Recurrentes tienen un 10% más de precisión que las Convolucionales con un tiempo de procesamiento similar.

More information

Item ID: 62913
DC Identifier: http://oa.upm.es/62913/
OAI Identifier: oai:oa.upm.es:62913
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 07 Jul 2020 10:29
Last Modified: 07 Jul 2020 10:29
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM