Full text
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (553kB) |
Sánchez García, Jairo (2023). Uso de grafos de conocimiento para la mejora de la calidad de los datos de entrenamiento en traducción automática. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Uso de grafos de conocimiento para la mejora de la calidad de los datos de entrenamiento en traducción automática |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Inteligencia Artificial |
Date: | July 2023 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (553kB) |
Este trabajo se centra en estudiar la limpieza de corpus paralelos para tareas de traducción automática en el idioma español. Para ello se ha empezado comparando y analizando las herramientas más habituales de preprocesamiento y filtrado de corpus paralelos: Bicleaner (en sus versiones clásico y AI) y OpusFilter. Posteriormente, este trabajo se ha centrado en identificar patrones de errores en las oraciones paralelas que puedan afectar a la calidad de la traducción e intentar mitigar los errores mediante técnicas de identificación de Entidades Nombradas y Datos Enlazados (con DBpedia del español) para así mejorar los corpus de entrenamiento usados por los sistemas de traducción automática.
En este estudio se utilizan diferentes conjuntos de datos obtenidos del proyecto Tatoeba. En concreto, los subconjuntos Paracrawl y XLEnt son utilizados para comprobar el funcionamiento de las herramientas de preprocesamiento y comparar, a través de sus resultados, cuál de estos conjuntos de datos es de mayor calidad. La calidad vendrá dada por el porcentaje de unidades de traducción que no superan cierto umbral de calidad. Los resultados muestran que el subconjunto paracrawl es de mayor calidad que el de XLEnt.
Además, se analizaron los errores más frecuentes y se encontró que en muchos errores se veían involucradas entidades nombradas. Mediante el uso de herramientas como Spacy, DBpedia Spotlight y DBpedia, se propone un método basado en el reconocimiento de entidades, para mejorar la calidad de las traducciones de los corpus paralelos. El proceso está dividido en tres fases: la primera de ellas es la detección de entidades nombradas en el segmento origen, utilizando el modelo pre-entrenado para el idioma origen. Posteriormente, se lleva a cabo su traducción a través de DBpedia. Y por último, se realiza la detección de entidades en el segmento destino y se ejecuta su sustitución en función de su similitud léxica. Los resultados muestran mejoras de hasta el 14 % (reducción del número de ocurrencias).
A través del siguiente enlace a Github se puede acceder al código fuente, datasets, y los archivos resultantes de este trabajo.
ABSTRACT
This paper is focused on the cleaning of parallel corpus for Spanish machine translation tasks. For that purpose, different parallel corpus preprocessing and filtering tools, like OpusFilter, Bicleaner and Bicleaner AI are compared and analized. The main objective is to identify possible error patterns in parallel sentences that could affect the quality of the translation, and to try to mitigate the errors by Named Entity recognition techniques and Linked Data (Spanish DBpedia) in order to improve the training corpora used by machine translation systems.
In this study many datasets, obtained from the project called Tatoeba, are used. Specifically, Paracrawl and XLEnt, ared used to test the performance of the preprocessing tools and compare, through their results, which of these datasets is of higher quality by extracting the percentage of translation unit that do not exceed some quality thresholds. The results show that Paracrawl subset has a better quality than XLEnt.
In addition, the most frequent errors were analyzed and it was found that many of the errors involved named entities. By the use of tecnologies like Spacy, DBpedia Spotlight and DBpedia, a process based on entities recognition is carried out using pre-trained Named Entity Recognition models, where the improvement of parallel corpora is searched. The process is divided in three phases: the first of them is the named entities detection from the source segment. Lately, a translation throught the knowledge base, DBpedia, is carried out. Finally, a named entities detection from the target segment is done and then, their substitution takes place basis on their lexical similarity. The results show improvements of up to 14 % (reduction in the number of occurrences).
Through this link to GitHub, source code, datasets, and the resulting files from this work can be accessed.
Item ID: | 75819 |
---|---|
DC Identifier: | https://oa.upm.es/75819/ |
OAI Identifier: | oai:oa.upm.es:75819 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 13 Sep 2023 12:36 |
Last Modified: | 13 Sep 2023 12:36 |