Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning

Rodríguez Fernández, Rubén (2018). Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Valoración de películas basada en Procesamiento del Lenguaje Natural y Deep Learning
Author/s:
  • Rodríguez Fernández, Rubén
Contributor/s:
  • Serrano Fernández, Emilio
  • González Pachón, Jacinto
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (820kB) | Preview

Abstract

La industria cinematográfica es un negocio multimillonario, pero esta industria no está exenta de riesgos y solo unas pocas películas consiguen ser rentables. Para reducir la incertidumbre sobre las inversiones, los productores e inversores se basan en la experiencia previa y en estudios de mercado, pero no es hasta el estreno de la película, cuando se descubre si ésta es rentable. El presente Trabajo de Fin de Máster versa sobre la aplicación de modelos basados en Deep Learning, técnicas de Procesamiento del Lenguaje Natural y Análisis de Grafos con el objetivo de predecir la taquilla de una película. Las predicciones se realizarán en la etapa de Desarrollo, donde los productores deciden si producir una película, y la fase Pre-producción, donde se planifica la producción de la película, ya que en estas fases los recursos invertidos son reducidos y por tanto las predicciones pueden ser utilizadas por los inversores y productores para reducir la incertidumbre en la toma de decisiones. Este problema se ha transformado en un problema de clasificación, discretizando la taquilla de forma binaria y multi-clase en 9 clases, de tal forma que todas las clases tengan el mismo número de películas. Los resultados obtenidos son: un accuracy de 74.4% y 87.2% en la clasificación binaria, y 32.9% y 46.9% en la multi-clase para Desarrollo y Pre-producción respectivamente. Mediante el uso de variables creadas con técnicas de Procesamiento del Lenguaje Natural y Análisis de Grafos, se han conseguido mejorar los resultados de Desarrollo y Pre-producción en un 13.7% y 24.3% respecto a los experimentos realizados utilizando únicamente las variables empleadas normalmente en la literatura. La principal aportación del trabajo ha sido la creación de una representación densa de películas basadas en grafos, que tiene en cuenta interacciones entre variables categóricas con una gran cardinalidad como el género, estudio cinematográfico, escritor o secuelas de películas. Por otra parte, se han realizado aportaciones metodológicas, como la utilización de redes neuronales recurrentes para el procesamiento de sinopsis, y la utilización únicamente de variables calculadas de forma automática, en contraste con otros trabajos de Desarrollo que requerían de procesamiento manual. Por último, se ha tratado de reducir el sesgo introducido en otros trabajos mediante la utilización de variables agregadas a nivel de conjunto de datos, que pueden dar información de tendencias, o la partición del conjunto de datos en entrenamiento y prueba de forma aleatoria ignorando el componente temporal de las películas.---ABSTRACT---The film industry is a multi-million dollar business, but this industry is not risk-free and only a few films are profitable. Producers and investors rely on previous experience and market research to reduce the uncertainty about investments, But it is not until the film is released when the film is known whether it is profitable. The present Final Master's Dissertation is about the application of Deep Learning models, Natural Language Processing techniques and Graph Analysis to predict film's box office. Predictions will be made at the Development stage, where producers decide whether to produce a film, and the Pre-production stage, where film production is planned, as the resources invested so far are reduced. Therefore, the predictions can be used to assist investors in the decision-making process. This problem has been converted into a classification problem, by discretizing the box office in both binary and multi-class with 9 classes, so that all classes have the same number of films. The results obtained are: an accuracy of 74.4% and 87.2% in binary classification, and 32.9% and 46.9% in multi-class for Development and Pre-production respectively. By using the information extracted with Natural Language Processing and Graph Analysis techniques, the results in Development and Pre-production stages have been improved by 13.7% and 24.3% respectively, with respect to the experiments carried out using only the variables commonly used in literature. The main contribution of the work is the creation of a dense representation of graph-based films, which takes into account interactions between categorical variables with a high cardinality such as genre, film studio, writer or sequels of films. On the other hand, we have made methodological contributions such as the use of recurrent neural networks for synopsis processing. Finally, we have tried to reduce the bias introduced in other works by using aggregate variables, which can give trend information, or by partitioning the data set in training and testing randomly ignoring the time component of the films.

More information

Item ID: 53401
DC Identifier: http://oa.upm.es/53401/
OAI Identifier: oai:oa.upm.es:53401
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 21 Dec 2018 07:43
Last Modified: 21 Dec 2018 07:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM