The influence of text length for probabilistic topic models and their hierarchical representation

Lozano Álvarez, Borja (2020). The influence of text length for probabilistic topic models and their hierarchical representation. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: The influence of text length for probabilistic topic models and their hierarchical representation
Author/s:
  • Lozano Álvarez, Borja
Contributor/s:
  • Corcho García, Óscar
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

La exploración de un conjunto de documentos requiere del uso de técnicas computacionales que permitan crear relaciones entre los mismos para un descubrimiento eficiente de la información. Tradicionalmente los métodos usados para este fin proyectan los documentos en espacios vectoriales donde cada palabra del vocabulario corresponde a una dimensión ortogonal al resto. Aunque estos métodos siguen siendo utilizados con frecuencia en las últimas décadas se han desarrollado modelos probabilísticos que extraen las temáticas de un conjunto de documentos y representan a cada texto en proporción a como presenta dichas temáticas, dando lugar a una estructura semántica mucho más rica. Estos modelos, conocidos como modelos de tópicos probabilísticos, funcionan buscando correlación entre las palabras que aparecen en el mismo contexto. Aunque su uso se ha extendido en los últimos años el papel que juega el tamaño individual de los textos es todavía una variable a estudiar. Esta tesis aporta un estado del arte para entender dichos modelos, su uso como herramienta para relacionar documentos, la descripción y resultados de experimentos destinados a entender mejor la relación entre el tamaño del texto y la capacidad de los modelos para relacionar documentos y el desarrollo de una aplicación web para visualizar conjuntos de documentos mediante su mapa semántico.---ABSTRACT---The exploration of a collection of documents requires the use of computational techniques that allow relationships to be created between them for efficient discovery of information. Traditional methods mapped documents in vectorial spaces where each word in the vocabulary corresponds to a dimension orthogonal to the rest. Although these methods continue to be used frequently, in recent decades researches have developed probabilistic models that extract the themes from a set of documents and represent each text in proportion to how it presents these themes, resulting in a much richer semantic structure. These models, known as probabilistic topic models, work by looking for the correlation between words in the same context. Although its use has spread in recent years, the role played by the size of the texts remains a variable to study. This thesis provides a state of the art to understand such models, its use as a tool to relate documents, the description and the results of experiments intended to better understand the relationship between text size and the ability of models to relate documents and the developing a web application to view sets of documents using your semantic map.

More information

Item ID: 63753
DC Identifier: http://oa.upm.es/63753/
OAI Identifier: oai:oa.upm.es:63753
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Sep 2020 11:46
Last Modified: 10 Sep 2020 11:46
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM