Valoración de películas basada en análisis de redes sociales

Martín Sanz, Diego (2017). Valoración de películas basada en análisis de redes sociales. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Valoración de películas basada en análisis de redes sociales
Author/s:
  • Martín Sanz, Diego
Contributor/s:
  • Serrano Fernández, Emilio
  • González Pachón, Jacinto
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2017
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (898kB) | Preview

Abstract

En este trabajo de fin de máster se estudiará la aplicación del Análisis de Redes Sociales (SNA) para conseguir predecir la valoración de películas en IMDb, antes de que éstas aparezcan en cartelera y basándonos para ello únicamente en los grafos que definen la estructura de red social de las mismas, donde un nodo es un personaje y una arista une dos personajes que interaccionan entre sí. Se intentará predecir si la valoración de una película será positiva o negativa (considerando una valoración > 7 como positiva y una valoración <= 7 como negativa) y se intentará conseguir una predicción de las valoraciones en 5 categorías más precisas, siendo conscientes no obstante de la dificultad que presenta este segundo objetivo. Para ello aplicaremos métodos de clasificación típicos de la minería de datos, como son las implementaciones de Weka de J48, Random Forests, Adaboost, NaiveBayes y OneR. En los resultados obtenidos se ha conseguido hasta casi un 74% de valor predictivo positivo (precision) en la predicción de películas con valoraciones positivas (mayores que 7). Sin embargo, no se ha encontrado correlación en los datos para conseguir predicciones de valoraciones de películas bajo el planteamiento de clasificación multi-clase, lo cual era de esperar, dada la desafiante naturaleza del problema. Se han definido nuevos e innovadores conceptos basándonos en métricas de SNA como han sido el “Número de Protagonistas”, “Popularidad de los Protagonistas” y “Relevancia de los Protagonistas”, y hemos comprobado que con ellos se ha mejorado la calidad de los datos. Para ello hemos creado 4 definiciones de lo que podría ser un protagonista de una película, basándonos también en métricas de SNA. La desafiante naturaleza de los objetivos planteados, unido a las contribuciones que este trabajo va a aportar al conocimiento de la materia, justifican con creces la realización de este trabajo.---ABSTRACT---In this master's degree essay, it will be studied the application of Social Network Analysis (SNA) to aim to predict the movie ratings in IMDb, before they appear on the billboard and based solely on the graphs that define the movies social network structure, where a node is a character and an edge joins two characters that interact with each other. It is our purpose to predict whether a movie rating will be positive or negative (considering a rating > 7 as positive and a rating <= 7 as negative) and to achieve a rating prediction in 5 more precise categories, being conscious of the difficulty of this second objective. We will apply classification methods typical of data mining, such as the Weka implementations of J48, Random Forests, Adaboost, NaiveBayes and OneR. Up to almost 74% of accuracy has been achieved in predicting movies with positive ratings (greater than 7). However, no correlation was found in the data to obtain movie rating predictions under the multi-class classification approach, which was to be expected given the challenging nature of the problem. New and innovative concepts have been defined based on SNA metrics such as "Number of Protagonists", "Popularity of Protagonists" and "Relevance of Protagonists", and we have verified that they have improved the dataframe quality. We have created 4 definitions of what could be a movie protagonist, also based on SNA metrics The challenging nature of the objectives set, together with the contributions that this work will bring to the knowledge of the subject, further justify the accomplishment of this work.

More information

Item ID: 47888
DC Identifier: http://oa.upm.es/47888/
OAI Identifier: oai:oa.upm.es:47888
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 28 Sep 2017 06:39
Last Modified: 28 Sep 2017 06:39
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM