Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma

Chee Chan, Daniel Kaiwei (2018). Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma
Author/s:
  • Chee Chan, Daniel Kaiwei
Contributor/s:
  • Corcho, Oscar
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (561kB) | Preview

Abstract

Este proyecto tiene como objetivo el desarrollo del estudio de los modelos probabilísticos de tópicos entrenados a partir de artículos de la Wikipedia para ser capaces de medir la semejanza semántica de dos texto en distinto idioma. Para este proyecto los dos idiomas son el inglés y el español. Las primera fase del proyecto ha sido la recopilación de los datos a partir de la API de MediaWiki y generar dos corpus uno en inglés y otro en español. Los requisitos de esta tarea consistía en recoger en ambos idiomas artículos que pertenezcan a las mismas categorías en ambos idiomas y cada categoría debía de contener un mínimo de artículos para que los modelos tópicos tuvieran conocimiento de forma equitativa sobre cada categoría. La segunda fase del proyecto ha sido el entrenamiento de los modelos probabilísticos de tópicos. Una vez generados los corpus en ambos idiomas se procedía a mandar cada uno de los textos a una API REST que permite construir el modelo para cada idioma. La tercera y última fase, consiste en el estudio y análisis estadístico de los resultados obtenidos en los dos idioma.---ABSTRACT---This project aims at the development of the study of probabilistic models of topics trained to be able to measure the semantic similarity of two different language text from Wikipedia articles. For this project, the two languages are English and the Spanish. The first phase of the project has been the compilation of the data from the MediaWiki API and generate two corpus one in English and one in Spanish. The requirements of this assignment was to pick items that belong to the same categories in both languages in both languages and each category should contain a minimum of articles so topical models would have knowledge in an equitable manner on each category. The second phase of the project has bee n training topics probabilistic models. Once generated the corpus in both languages was to send each text to a REST API that allows you to build a model for each language. The third and last phase, consists of the study and statistical analysis of the results obtained in the two languages.

More information

Item ID: 51610
DC Identifier: http://oa.upm.es/51610/
OAI Identifier: oai:oa.upm.es:51610
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 12 Jul 2018 07:28
Last Modified: 12 Jul 2018 07:28
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM