Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview |
Lozano Álvarez, Borja (2020). The influence of text length for probabilistic topic models and their hierarchical representation. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | The influence of text length for probabilistic topic models and their hierarchical representation |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Inteligencia Artificial |
Date: | July 2020 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview |
La exploración de un conjunto de documentos requiere del uso de técnicas computacionales que permitan crear relaciones entre los mismos para un descubrimiento eficiente de la información. Tradicionalmente los métodos usados para este fin proyectan los documentos en espacios vectoriales donde cada palabra del vocabulario corresponde a una dimensión ortogonal al resto. Aunque estos métodos siguen siendo utilizados con frecuencia en las últimas décadas se han desarrollado modelos probabilísticos que extraen las temáticas de un conjunto de documentos y representan a cada texto en proporción a como presenta dichas temáticas, dando lugar a una estructura semántica mucho más rica. Estos modelos, conocidos como modelos de tópicos probabilísticos, funcionan buscando correlación entre las palabras que aparecen en el mismo contexto. Aunque su uso se ha extendido en los últimos años el papel que juega el tamaño individual de los textos es todavía una variable a estudiar. Esta tesis aporta un estado del arte para entender dichos modelos, su uso como herramienta para relacionar documentos, la descripción y resultados de experimentos destinados a entender mejor la relación entre el tamaño del texto y la capacidad de los modelos para relacionar documentos y el desarrollo de una aplicación web para visualizar conjuntos de documentos mediante su mapa semántico.---ABSTRACT---The exploration of a collection of documents requires the use of computational techniques that allow relationships to be created between them for efficient discovery of information. Traditional methods mapped documents in vectorial spaces where each word in the vocabulary corresponds to a dimension orthogonal to the rest. Although these methods continue to be used frequently, in recent decades researches have developed probabilistic models that extract the themes from a set of documents and represent each text in proportion to how it presents these themes, resulting in a much richer semantic structure. These models, known as probabilistic topic models, work by looking for the correlation between words in the same context. Although its use has spread in recent years, the role played by the size of the texts remains a variable to study. This thesis provides a state of the art to understand such models, its use as a tool to relate documents, the description and the results of experiments intended to better understand the relationship between text size and the ability of models to relate documents and the developing a web application to view sets of documents using your semantic map.
Item ID: | 63753 |
---|---|
DC Identifier: | https://oa.upm.es/63753/ |
OAI Identifier: | oai:oa.upm.es:63753 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 10 Sep 2020 11:46 |
Last Modified: | 10 Sep 2020 11:46 |