Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (6MB) | Preview |
Arias Cuadrado, David (2021). Diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).
Title: | Diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación |
Date: | 2021 |
Subjects: | |
Freetext Keywords: | Memorabilidad, PLN, BERT, Word2Vec, VideoMem, PCA, t-SNE, UMAP, DBSCAN |
Faculty: | E.T.S.I. Telecomunicación (UPM) |
Department: | Ingeniería Electrónica |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (6MB) | Preview |
La memorabilidad de imágenes y vídeos, a la vista de trabajos recientes que buscan modelarla computacionalmente, parece ser una característica intrínseca modelable a partir de sus propiedades visuales. En el siguiente trabajo se ha propuesto el diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos.
La memorabilidad de un vídeo se define como el porcentaje de personas que identifican correctamente haberlo visto anteriormente. Existen dos modalidades de memorabilidad; una a corto plazo cuando se refiere a un vídeo visto pocos minutos antes y otra a largo plazo cuando ya han pasado más de unas horas.
Para el desarrollo de este trabajo, se ha utilizado principalmente la base de datos proporcionada por la competición MediaEval 2019 Predicting Media Memorability Challenge. Esta base de datos está compuesta por 8.000 vídeos sin sonido de 7 segundos y está orientada a la predicción de la memorabilidad a corto y largo plazo.
Para la predicción de la memorabilidad, el trabajo se centra en aprovechar la información contenida en descripciones textuales en lenguaje natural de cada vídeo. Pensamos que dichas descripciones encapsulan la información relativa a la semántica, objetos e interacciones que definen la información visual, y que, por tanto, pueden ser usados con éxito para predecir un fenómeno como la memorabilidad, altamente ligado a la semántica según la literatura existente sobre el tema. Frente a enfoques tradicionalmente usados como los vectores de palabra, que exploran el espacio de cada palabra, nosotros encontramos que los vectores de frase generados por un modelo preentrenado sin adaptar a nuestra tarea (Sentence-BERT) no sólo mejoran la predicción de memorabilidad con respecto a modelos basados en vectores de palabra, sino que constituyen una alternativa competitiva frente a enfoques puramente visuales.
Si bien nuestros resultados muestran que la semántica visual puede ser expresada en lenguaje natural, y que dicho texto puede ser tratado para constituir la entrada a modelos predictivos de la memorabilidad, aún demuestra tener un gran margen de mejora en algunos de los casos. En concreto, pensamos que nuestro trabajo futuro debería ir encaminado a adaptar los embeddings de frase al subespacio de temas
contenidos en nuestro dataset.
Item ID: | 69750 |
---|---|
DC Identifier: | https://oa.upm.es/69750/ |
OAI Identifier: | oai:oa.upm.es:69750 |
Deposited by: | David Arias Cuadrado |
Deposited on: | 12 Feb 2022 10:45 |
Last Modified: | 05 Jun 2023 15:40 |