Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas

Salas Sancho, Olga (2017). Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas
Author/s:
  • Salas Sancho, Olga
Contributor/s:
  • Corcho, Oscar
  • Gómez Pérez, José Manuel
  • Denaux, Ronald
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2017
Subjects:
Freetext Keywords: Matriz de traducción; Representaciones vectoriales de las palabras; Contexto; Ambigüedad polisémica; Translation matrix; Vector representations of words; Context; Ambiguity
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Basándonos en el estudio de Tomas Mikolov et al. sobre las representaciones vectoriales de las palabras, es posible obtener traducciones entre distintos idiomas procesando conjuntos amplios y estructurados de ejemplos reales de cada idioma, denominados "corpus". Dichas traducciones se pueden obtener mediante una transformación lineal entre los corpus, al menos, en el caso ideal. Bastaría con resolver la ecuación matricial A . X = B (1) siendo A y B las representaciones de los vectores en cada idioma. X sería la matriz de traducción resultante, que multiplicada por un vector en el idioma A nos devolvería el vector más parecido en el idioma B. El problema principal es que cada lengua tiene características propias que determinan el significado de ciertas palabras mediante el contexto, generando ambigüedad en las traducciones y provocando que el algoritmo devuelva resultados no esperados. Dicha ambigüedad está directamente relacionada con la polisemia de las palabras, puesto que palabras con distintos significados pueden no verse representadas de igual forma en diferentes idiomas. Por ello se pretende estudiar qué algoritmo es el mejor, qué parámetros y tipos de vectores han de usarse y qué optimizaciones se pueden llevar a cabo para una mejora de los resultados. En definitiva, el objetivo de este trabajo consiste en reducir el efecto negativo de la ambigüedad provocada por la polisemia de las palabras para encontrar unas traducciones acordes a los resultados correctos.---ABSTRACT---Based on the study made by Tomas Mikolov et al. of the vector representations of words, it is possible to obtain translations between different languages by processing large and structured sets of real examples of each language, called "corpus". Such translations can be obtained by a linear transformation between the corpus, at least in the ideal case. It would be enough to solve the matrix equation A . X = B (2) being A and B representations of the vectors in each language. X would be the resulting translation matrix, and multiplied by a vector in language A, the most similar vector in language B would be returned. The main problem is that each language has its own characteristics that determine the meaning of certain words through the context, generating ambiguity in the translations and making the algorithm to return unexpected results. This ambiguity is directly related to the polysemy of words, since words that have different meanings may not be represented in the same way in different languages. It is therefore intended to study which algorithm is the best, which parameteres and types of vectores should be used and which optimizations we should take for making an improvement in our results. In short, the objective of this project is to reduce the negative effect of the ambiguity caused by the polysemy of the words to find translations according to the correct results.

More information

Item ID: 47254
DC Identifier: http://oa.upm.es/47254/
OAI Identifier: oai:oa.upm.es:47254
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 17 Jul 2017 11:47
Last Modified: 17 Jul 2017 11:49
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM