Diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos

Arias Cuadrado, David (2021). Diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).

Description

Title: Diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos
Author/s:
  • Arias Cuadrado, David
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Date: 2021
Subjects:
Freetext Keywords: Memorabilidad, PLN, BERT, Word2Vec, VideoMem, PCA, t-SNE, UMAP, DBSCAN
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_David_Arias_Cuadrado.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (6MB) | Preview

Abstract

La memorabilidad de imágenes y vídeos, a la vista de trabajos recientes que buscan modelarla computacionalmente, parece ser una característica intrínseca modelable a partir de sus propiedades visuales. En el siguiente trabajo se ha propuesto el diseño e implementación de soluciones de aprendizaje automático profundo para la estimación de la memorabilidad en vídeos.
La memorabilidad de un vídeo se define como el porcentaje de personas que identifican correctamente haberlo visto anteriormente. Existen dos modalidades de memorabilidad; una a corto plazo cuando se refiere a un vídeo visto pocos minutos antes y otra a largo plazo cuando ya han pasado más de unas horas.
Para el desarrollo de este trabajo, se ha utilizado principalmente la base de datos proporcionada por la competición MediaEval 2019 Predicting Media Memorability Challenge. Esta base de datos está compuesta por 8.000 vídeos sin sonido de 7 segundos y está orientada a la predicción de la memorabilidad a corto y largo plazo.
Para la predicción de la memorabilidad, el trabajo se centra en aprovechar la información contenida en descripciones textuales en lenguaje natural de cada vídeo. Pensamos que dichas descripciones encapsulan la información relativa a la semántica, objetos e interacciones que definen la información visual, y que, por tanto, pueden ser usados con éxito para predecir un fenómeno como la memorabilidad, altamente ligado a la semántica según la literatura existente sobre el tema. Frente a enfoques tradicionalmente usados como los vectores de palabra, que exploran el espacio de cada palabra, nosotros encontramos que los vectores de frase generados por un modelo preentrenado sin adaptar a nuestra tarea (Sentence-BERT) no sólo mejoran la predicción de memorabilidad con respecto a modelos basados en vectores de palabra, sino que constituyen una alternativa competitiva frente a enfoques puramente visuales.
Si bien nuestros resultados muestran que la semántica visual puede ser expresada en lenguaje natural, y que dicho texto puede ser tratado para constituir la entrada a modelos predictivos de la memorabilidad, aún demuestra tener un gran margen de mejora en algunos de los casos. En concreto, pensamos que nuestro trabajo futuro debería ir encaminado a adaptar los embeddings de frase al subespacio de temas
contenidos en nuestro dataset.

More information

Item ID: 69750
DC Identifier: https://oa.upm.es/69750/
OAI Identifier: oai:oa.upm.es:69750
Deposited by: David Arias Cuadrado
Deposited on: 12 Feb 2022 10:45
Last Modified: 05 Jun 2023 15:40
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM