@unpublished{upm47888, title = {Valoraci{\'o}n de pel{\'i}culas basada en an{\'a}lisis de redes sociales}, school = {ETSI\_Informatica}, author = {Diego Mart{\'i}n Sanz}, year = {2017}, url = {http://oa.upm.es/47888/}, abstract = {En este trabajo de fin de m{\'a}ster se estudiar{\'a} la aplicaci{\'o}n del An{\'a}lisis de Redes Sociales (SNA) para conseguir predecir la valoraci{\'o}n de pel{\'i}culas en IMDb, antes de que {\'e}stas aparezcan en cartelera y bas{\'a}ndonos para ello {\'u}nicamente en los grafos que definen la estructura de red social de las mismas, donde un nodo es un personaje y una arista une dos personajes que interaccionan entre s{\'i}. Se intentar{\'a} predecir si la valoraci{\'o}n de una pel{\'i}cula ser{\'a} positiva o negativa (considerando una valoraci{\'o}n {\ensuremath{>}} 7 como positiva y una valoraci{\'o}n {\ensuremath{<}}= 7 como negativa) y se intentar{\'a} conseguir una predicci{\'o}n de las valoraciones en 5 categor{\'i}as m{\'a}s precisas, siendo conscientes no obstante de la dificultad que presenta este segundo objetivo. Para ello aplicaremos m{\'e}todos de clasificaci{\'o}n t{\'i}picos de la miner{\'i}a de datos, como son las implementaciones de Weka de J48, Random Forests, Adaboost, NaiveBayes y OneR. En los resultados obtenidos se ha conseguido hasta casi un 74\% de valor predictivo positivo (precision) en la predicci{\'o}n de pel{\'i}culas con valoraciones positivas (mayores que 7). Sin embargo, no se ha encontrado correlaci{\'o}n en los datos para conseguir predicciones de valoraciones de pel{\'i}culas bajo el planteamiento de clasificaci{\'o}n multi-clase, lo cual era de esperar, dada la desafiante naturaleza del problema. Se han definido nuevos e innovadores conceptos bas{\'a}ndonos en m{\'e}tricas de SNA como han sido el ?N{\'u}mero de Protagonistas?, ?Popularidad de los Protagonistas? y ?Relevancia de los Protagonistas?, y hemos comprobado que con ellos se ha mejorado la calidad de los datos. Para ello hemos creado 4 definiciones de lo que podr{\'i}a ser un protagonista de una pel{\'i}cula, bas{\'a}ndonos tambi{\'e}n en m{\'e}tricas de SNA. La desafiante naturaleza de los objetivos planteados, unido a las contribuciones que este trabajo va a aportar al conocimiento de la materia, justifican con creces la realizaci{\'o}n de este trabajo.---ABSTRACT---In this master's degree essay, it will be studied the application of Social Network Analysis (SNA) to aim to predict the movie ratings in IMDb, before they appear on the billboard and based solely on the graphs that define the movies social network structure, where a node is a character and an edge joins two characters that interact with each other. It is our purpose to predict whether a movie rating will be positive or negative (considering a rating {\ensuremath{>}} 7 as positive and a rating {\ensuremath{<}}= 7 as negative) and to achieve a rating prediction in 5 more precise categories, being conscious of the difficulty of this second objective. We will apply classification methods typical of data mining, such as the Weka implementations of J48, Random Forests, Adaboost, NaiveBayes and OneR. Up to almost 74\% of accuracy has been achieved in predicting movies with positive ratings (greater than 7). However, no correlation was found in the data to obtain movie rating predictions under the multi-class classification approach, which was to be expected given the challenging nature of the problem. New and innovative concepts have been defined based on SNA metrics such as "Number of Protagonists", "Popularity of Protagonists" and "Relevance of Protagonists", and we have verified that they have improved the dataframe quality. We have created 4 definitions of what could be a movie protagonist, also based on SNA metrics The challenging nature of the objectives set, together with the contributions that this work will bring to the knowledge of the subject, further justify the accomplishment of this work.} }