Citation
Salas Sancho, Olga
(2017).
Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas.
Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Abstract
Basándonos en el estudio de Tomas Mikolov et al. sobre las representaciones
vectoriales de las palabras, es posible obtener traducciones entre distintos
idiomas procesando conjuntos amplios y estructurados de ejemplos reales de
cada idioma, denominados "corpus".
Dichas traducciones se pueden obtener mediante una transformación lineal
entre los corpus, al menos, en el caso ideal. Bastaría con resolver la ecuación
matricial
A . X = B (1)
siendo A y B las representaciones de los vectores en cada idioma. X sería la
matriz de traducción resultante, que multiplicada por un vector en el idioma
A nos devolvería el vector más parecido en el idioma B. El problema principal
es que cada lengua tiene características propias que determinan el significado
de ciertas palabras mediante el contexto, generando ambigüedad en
las traducciones y provocando que el algoritmo devuelva resultados no esperados.
Dicha ambigüedad está directamente relacionada con la polisemia de
las palabras, puesto que palabras con distintos significados pueden no verse
representadas de igual forma en diferentes idiomas.
Por ello se pretende estudiar qué algoritmo es el mejor, qué parámetros y
tipos de vectores han de usarse y qué optimizaciones se pueden llevar a cabo
para una mejora de los resultados.
En definitiva, el objetivo de este trabajo consiste en reducir el efecto negativo
de la ambigüedad provocada por la polisemia de las palabras para encontrar
unas traducciones acordes a los resultados correctos.---ABSTRACT---Based on the study made by Tomas Mikolov et al. of the vector representations
of words, it is possible to obtain translations between different
languages by processing large and structured sets of real examples of each
language, called "corpus".
Such translations can be obtained by a linear transformation between the corpus,
at least in the ideal case. It would be enough to solve the matrix equation
A . X = B (2)
being A and B representations of the vectors in each language. X would be
the resulting translation matrix, and multiplied by a vector in language A, the
most similar vector in language B would be returned. The main problem is
that each language has its own characteristics that determine the meaning of
certain words through the context, generating ambiguity in the translations
and making the algorithm to return unexpected results. This ambiguity is
directly related to the polysemy of words, since words that have different
meanings may not be represented in the same way in different languages.
It is therefore intended to study which algorithm is the best, which parameteres
and types of vectores should be used and which optimizations we should
take for making an improvement in our results.
In short, the objective of this project is to reduce the negative effect of the
ambiguity caused by the polysemy of the words to find translations according
to the correct results.