Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma

Chee Chan, Daniel Kaiwei (2018). Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Utilización de Mediawiki/Wikipedia y modelos probabilísticos para medir la semejanza semántica de dos textos escritos en distinto idioma
Autor/es:
  • Chee Chan, Daniel Kaiwei
Director/es:
  • Corcho, Oscar
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: 2018
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (561kB) | Vista Previa

Resumen

Este proyecto tiene como objetivo el desarrollo del estudio de los modelos probabilísticos de tópicos entrenados a partir de artículos de la Wikipedia para ser capaces de medir la semejanza semántica de dos texto en distinto idioma. Para este proyecto los dos idiomas son el inglés y el español. Las primera fase del proyecto ha sido la recopilación de los datos a partir de la API de MediaWiki y generar dos corpus uno en inglés y otro en español. Los requisitos de esta tarea consistía en recoger en ambos idiomas artículos que pertenezcan a las mismas categorías en ambos idiomas y cada categoría debía de contener un mínimo de artículos para que los modelos tópicos tuvieran conocimiento de forma equitativa sobre cada categoría. La segunda fase del proyecto ha sido el entrenamiento de los modelos probabilísticos de tópicos. Una vez generados los corpus en ambos idiomas se procedía a mandar cada uno de los textos a una API REST que permite construir el modelo para cada idioma. La tercera y última fase, consiste en el estudio y análisis estadístico de los resultados obtenidos en los dos idioma.---ABSTRACT---This project aims at the development of the study of probabilistic models of topics trained to be able to measure the semantic similarity of two different language text from Wikipedia articles. For this project, the two languages are English and the Spanish. The first phase of the project has been the compilation of the data from the MediaWiki API and generate two corpus one in English and one in Spanish. The requirements of this assignment was to pick items that belong to the same categories in both languages in both languages and each category should contain a minimum of articles so topical models would have knowledge in an equitable manner on each category. The second phase of the project has bee n training topics probabilistic models. Once generated the corpus in both languages was to send each text to a REST API that allows you to build a model for each language. The third and last phase, consists of the study and statistical analysis of the results obtained in the two languages.

Más información

ID de Registro: 51610
Identificador DC: http://oa.upm.es/51610/
Identificador OAI: oai:oa.upm.es:51610
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 12 Jul 2018 07:28
Ultima Modificación: 12 Jul 2018 07:28
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM