Topic model aplicado a letras de canciones

Diaz Benito, Marta (2017). Topic model aplicado a letras de canciones. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Topic model aplicado a letras de canciones
Author/s:
  • Diaz Benito, Marta
Contributor/s:
  • Virtanen, Tuomas
  • Huang, Guangpu
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 12 May 2017
Subjects:
Freetext Keywords: Modelo estadístico Lenguaje de programación
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Otro
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Este proyecto propone una aplicación practica de Topic Model a letras de canciones. El proyecto explica una aproximación teórica al Topic Model y sus orígenes, así como el algoritmo seleccionado para aplicar en este trabajo: Latent Dirichlet Allocation (LDA). Se propone el trabajo como referencia para poder ser usado como futuro manual de usuario, explicando detalladamente los procesos a seguir en cada paso. Para facilitar la comprensión al lector este manual puede dividirse en tres partes: Teórica, antecedentes prácticos y resultados. La aplicación práctica del Proyecto ha sido optimizado para un entorno Python. Se asume que el lector tiene conocimientos de programación en Python, aunque no necesariamente este programa instalada, de modo que se explica el proceso de instalación, detallando especialmente las librerías necesarias para poder aplicar LDA. Podemos dividir la parte dedicada a la programación en dos tareas principales: Recolección de las letras de canciones Aplicar Topic Model a las letras de canciones La recolección de las letras se lleva a cabo a través de la página www.azlyrics.com. El código está escrito de modo que recibe un archivo de texto con los links de las canciones de esta página y origina otro archivo de texto con todas las letras de las canciones a las que se refieren dichos links. Tras esto, con la ayuda de las librerías Python especificadas durante la presentación del entorno de Python, se aplica Topic Model al archivo originado. Durante la aplicación práctica, el proyecto recoge una selcción de letras de canción de los artistas más representativos de los géneros Indie y Hip Hop con el propósito de usar la tecnología para analizar la sociedad actual. Aplicanco Topic Model a dos géneras prácticamente exclusivos del siglo 21, se pretende averiguar que ‘topics’ preocupan a las nuevas generaciones. A la vista de los resultados, se puede afirmar que, durante las dos primeras décadas de este siglo, el ‘romance’, el ‘paso del tiempo’, la ‘autoestima’, el ‘racismo’ o el ‘dinero’ son los principales ‘topics’ que ocupan la mente de los millenials. Abstract: This thesis proposes a practical application of Topic Modeling on music lyrics. The thesis explains a theoretical approach to Topic Modeling and its origins and cur- rent use and explains the selected algorithm to carry on the work: Latent Dirichlet Allocation. This work could also be used as a manual for future users, including detailed expla- nation of how to perform every step. This manual can be divided for the ease of the reader in three parts: Theoretical Background Practical, application and results. The practical application is optimized for the Python environment. This thesis assumes the reader has knowledge of programming but has not Python installed in his console, and it specifies the complete process of installation. It specially details the necessary Python libraries to perform Latent Dirichlet Allocation (LDA). The programming part of the Thesis has two main tasks: Collecting the lyrics, applying Topic Modeling on the lyrics. The collecting of the lyrics is carried through the musical web-page www.azlyrics.com. The code is written with the purpose of reading an input text file containing the links of the songs from this web-page and returning an output file that contains the lyrics from these songs. After that, with the help of the Python libraries specified during the presentation of the Python environment, Topic Modeling is applied to the originated output. This thesis collects a selection of lyrics of the most representative artist from Indie and Hip Hop genre. The porpoise is to use technology to analyze the current soci- ety. By applying Topic Modeling to two genres that appeared in 21st century it is expected to figure out what topics are important for the new generations. Results show that during the first two decades of this century, ’love’, ’the pass of time’, ’self-esteem’, ’racism’ or ’money’ are the main topics for the millennials.

More information

Item ID: 52499
DC Identifier: http://oa.upm.es/52499/
OAI Identifier: oai:oa.upm.es:52499
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 05 Oct 2018 05:26
Last Modified: 05 Oct 2018 05:26
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM