Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning

Rodríguez Fernández, Rubén (2018). Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning
Author/s:
  • Rodríguez Fernández, Rubén
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_RUBEN_RODRIGUEZ_FERNANDEZ.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (820kB) | Preview

Abstract

La industria cinematográfica es un negocio multimillonario, pero esta industria
no está exenta de riesgos y solo unas pocas películas consiguen ser rentables. Para
reducir la incertidumbre sobre las inversiones, los productores e inversores se basan
en la experiencia previa y en estudios de mercado, pero no es hasta el estreno de la
película, cuando se descubre si ésta es rentable.
El presente Trabajo de Fin de Máster versa sobre la aplicación de modelos basados
en Deep Learning, técnicas de Procesamiento del Lenguaje Natural y Análisis
de Grafos con el objetivo de predecir la taquilla de una película. Las predicciones se
realizarán en la etapa de Desarrollo, donde los productores deciden si producir una
película, y la fase Pre-producción, donde se planifica la producción de la película, ya
que en estas fases los recursos invertidos son reducidos y por tanto las predicciones
pueden ser utilizadas por los inversores y productores para reducir la incertidumbre
en la toma de decisiones.
Este problema se ha transformado en un problema de clasificación, discretizando
la taquilla de forma binaria y multi-clase en 9 clases, de tal forma que todas las clases
tengan el mismo número de películas. Los resultados obtenidos son: un accuracy de
74.4% y 87.2% en la clasificación binaria, y 32.9% y 46.9% en la multi-clase para
Desarrollo y Pre-producción respectivamente. Mediante el uso de variables creadas
con técnicas de Procesamiento del Lenguaje Natural y Análisis de Grafos, se han
conseguido mejorar los resultados de Desarrollo y Pre-producción en un 13.7% y
24.3% respecto a los experimentos realizados utilizando únicamente las variables
empleadas normalmente en la literatura.
La principal aportación del trabajo ha sido la creación de una representación
densa de películas basadas en grafos, que tiene en cuenta interacciones entre variables
categóricas con una gran cardinalidad como el género, estudio cinematográfico,
escritor o secuelas de películas. Por otra parte, se han realizado aportaciones metodológicas, como la utilización de redes neuronales recurrentes para el procesamiento
de sinopsis, y la utilización únicamente de variables calculadas de forma automática,
en contraste con otros trabajos de Desarrollo que requerían de procesamiento
manual. Por último, se ha tratado de reducir el sesgo introducido en otros trabajos
mediante la utilización de variables agregadas a nivel de conjunto de datos, que
pueden dar información de tendencias, o la partición del conjunto de datos en entrenamiento
y prueba de forma aleatoria ignorando el componente temporal de las
películas.---ABSTRACT---The film industry is a multi-million dollar business, but this industry is not
risk-free and only a few films are profitable. Producers and investors rely on previous
experience and market research to reduce the uncertainty about investments,
But it is not until the film is released when the film is known whether it is profitable.
The present Final Master's Dissertation is about the application of Deep Learning
models, Natural Language Processing techniques and Graph Analysis to predict
film's box office. Predictions will be made at the Development stage, where producers
decide whether to produce a film, and the Pre-production stage, where film
production is planned, as the resources invested so far are reduced. Therefore, the
predictions can be used to assist investors in the decision-making process.
This problem has been converted into a classification problem, by discretizing
the box office in both binary and multi-class with 9 classes, so that all classes have
the same number of films. The results obtained are: an accuracy of 74.4% and
87.2% in binary classification, and 32.9% and 46.9% in multi-class for Development
and Pre-production respectively. By using the information extracted with Natural
Language Processing and Graph Analysis techniques, the results in Development
and Pre-production stages have been improved by 13.7% and 24.3% respectively,
with respect to the experiments carried out using only the variables commonly used
in literature.
The main contribution of the work is the creation of a dense representation of
graph-based films, which takes into account interactions between categorical variables
with a high cardinality such as genre, film studio, writer or sequels of films.
On the other hand, we have made methodological contributions such as the use of
recurrent neural networks for synopsis processing. Finally, we have tried to reduce
the bias introduced in other works by using aggregate variables, which can give
trend information, or by partitioning the data set in training and testing randomly
ignoring the time component of the films.

More information

Item ID: 53401
DC Identifier: https://oa.upm.es/53401/
OAI Identifier: oai:oa.upm.es:53401
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 21 Dec 2018 07:43
Last Modified: 21 Dec 2018 07:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM