Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas

Salas Sancho, Olga (2017). Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas
Autor/es:
  • Salas Sancho, Olga
Director/es:
  • Corcho, Óscar
  • Gómez Pérez, José Manuel
  • Denaux, Ronald
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: Junio 2017
Materias:
Palabras Clave Informales: Matriz de traducción; Representaciones vectoriales de las palabras; Contexto; Ambigüedad polisémica; Translation matrix; Vector representations of words; Context; Ambiguity
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

Basándonos en el estudio de Tomas Mikolov et al. sobre las representaciones vectoriales de las palabras, es posible obtener traducciones entre distintos idiomas procesando conjuntos amplios y estructurados de ejemplos reales de cada idioma, denominados "corpus". Dichas traducciones se pueden obtener mediante una transformación lineal entre los corpus, al menos, en el caso ideal. Bastaría con resolver la ecuación matricial A . X = B (1) siendo A y B las representaciones de los vectores en cada idioma. X sería la matriz de traducción resultante, que multiplicada por un vector en el idioma A nos devolvería el vector más parecido en el idioma B. El problema principal es que cada lengua tiene características propias que determinan el significado de ciertas palabras mediante el contexto, generando ambigüedad en las traducciones y provocando que el algoritmo devuelva resultados no esperados. Dicha ambigüedad está directamente relacionada con la polisemia de las palabras, puesto que palabras con distintos significados pueden no verse representadas de igual forma en diferentes idiomas. Por ello se pretende estudiar qué algoritmo es el mejor, qué parámetros y tipos de vectores han de usarse y qué optimizaciones se pueden llevar a cabo para una mejora de los resultados. En definitiva, el objetivo de este trabajo consiste en reducir el efecto negativo de la ambigüedad provocada por la polisemia de las palabras para encontrar unas traducciones acordes a los resultados correctos.---ABSTRACT---Based on the study made by Tomas Mikolov et al. of the vector representations of words, it is possible to obtain translations between different languages by processing large and structured sets of real examples of each language, called "corpus". Such translations can be obtained by a linear transformation between the corpus, at least in the ideal case. It would be enough to solve the matrix equation A . X = B (2) being A and B representations of the vectors in each language. X would be the resulting translation matrix, and multiplied by a vector in language A, the most similar vector in language B would be returned. The main problem is that each language has its own characteristics that determine the meaning of certain words through the context, generating ambiguity in the translations and making the algorithm to return unexpected results. This ambiguity is directly related to the polysemy of words, since words that have different meanings may not be represented in the same way in different languages. It is therefore intended to study which algorithm is the best, which parameteres and types of vectores should be used and which optimizations we should take for making an improvement in our results. In short, the objective of this project is to reduce the negative effect of the ambiguity caused by the polysemy of the words to find translations according to the correct results.

Más información

ID de Registro: 47254
Identificador DC: http://oa.upm.es/47254/
Identificador OAI: oai:oa.upm.es:47254
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 17 Jul 2017 11:47
Ultima Modificación: 17 Jul 2017 11:49
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM