Full text
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) |
Rodero Paredes, Ana (2023). Enhancing the quality of parallel corpora through classic and neural classification. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Enhancing the quality of parallel corpora through classic and neural classification |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Inteligencia Artificial |
Date: | July 2023 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) |
La evaluación de la calidad de traducción y el filtrado de corpus paralelos son aspectos vitales para desarrollar sistemas de traducción automática precisos y de alta calidad. Este trabajo se centra en mejorar el rendimiento de Bicleaner, una herramienta ampliamente utilizada para el filtrado de corpus paralelos. Presentamos nuestros hallazgos mejorando el modelo clásico de Bicleaner utilizando un conjunto de corpus más amplio y optimizando el modelo de IA de Bicleaner mediante aprendizaje curricular, aumento de las unidades de la capa oculta y ajustes de los parámetros para la generación de ruido durante el entrenamiento.
Para evaluar la calidad de la traducción, exploramos varias métricas, incluida la métrica más utilizada, BLEU (Bilingual Evaluation Understudy), y algunas otras métricas menos utilizadas. Mediante la comparación de estas métricas, evaluamos los puntos fuertes y las limitaciones de cada una, proporcionando información valiosa en el área de la evaluación de la calidad de la traducción.
Los corpus paralelos sirven como datos de entrenamiento para los modelos de traducción automática. Sin embargo, normalmente contienen ruido y frases desalineadas, lo que afecta a la calidad de la traducción. En nuestro estudio, estudiamos en primer lugar algunas herramientas, centrándonos principalmente en Bicleaner, una herramienta eficaz para filtrar pares de frases ruidosas de los corpus paralelos. Bicleaner hará uso de otra herramienta estudiada también para la limpieza de los datos, Bifixer, cuyo objetivo principal es identificar y corregir los pares de frases desalineadas dentro del corpus paralelo.
Además de Bicleaner, investigamos OpusFilter y OpusCleaner, herramientas especializadas para limpiar y filtrar corpus paralelos. OpusFilter emplea técnicas de preprocesamiento, filtrado, puntuación y clasificación para eliminar el ruido, mientras que OpusCleaner se centra específicamente en el proceso de limpieza, garantizando la coherencia e integridad de los pares de frases paralelas. Mediante análisis detallados, destacamos la eficacia de estas herramientas y su potencial para mejorar la calidad de la traducción.
El objetivo principal de este trabajo es la mejora de Bicleaner. En primer lugar, la mejora del modelo clásico de Bicleaner mediante su entrenamiento con un conjunto de corpus más amplio, incorporando diccionarios probabilísticos y archivos de frecuencias de palabras. Nuestros experimentos muestran que nuestro modelo mejora la precisión y la eficacia con respecto al modelo clásico. Además, profundizamos en la mejora del modelo de Bicleaner AI, empleando el aprendizaje curricular, ordenando el corpus de menor a mayor longitud de frase, aumentamos así gradualmente la dificultad de los ejemplos de entrenamiento, lo que permite al modelo aprender de pares i de frases más sencillas a otras más complejas. También aumentamos las unidades de las capas ocultas de 2046 a 4096, lo que permite al modelo captar patrones y dependencias más complejos. Además, ajustamos los parámetros utilizados para la generación de ruido durante el entrenamiento, introduciendo más ruido informativo y preservando al mismo tiempo la integridad de las frases. Nuestros resultados revelan unas mejoras significativas conseguidas con estas optimizaciones, que aumentan la precisión de la detección de ruido y preservan los pares de frases limpias, lo que nos lleva a una mayor calidad general de la traducción. La evaluación del modelo base en nuestro conjunto de pruebas produjo las siguientes métricas: una precisión de 0,841, un recall de 0,883, puntuación F1 de 0,862 y MCC (Coeficiente de Correlación de Matthews) de 0,846. Sin embargo, con la introducción de nuestro nuevo modelo, se observaron mejoras significativas en todas estas métricas. El modelo mejorado alcanzó valores de precisión, recall, F1 y MCC de 0,954, 0,970, 0,962 y 0,951, respectivamente. Estos resultados indican una mejora sustancial del rendimiento, lo que pone de manifiesto la eficacia y el éxito de nuestro modelo.
Para poder hacer uso de estas herramientas, y todos los modelos entrenados, encontramos todos los datos, resultados obtenidos e instrucciones en este repositorio: https://github.com/anaarodeero/TFM-TUs_results.
ABSTRACT
Translation quality evaluation and parallel corpus filtering are vital aspects of developing accurate and high-quality machine translation systems. This work focuses on enhancing the performance of Bicleaner, a widely used tool for parallel corpus filtering. We present our findings by improving the Bicleaner classic model using a larger corpus and optimizing the Bicleaner AI model through curriculum learning, increased hidden layer units, and parameter adjustments for noise generation during training.
To evaluate translation quality, we explore various metrics, including the widely used BLEU (Bilingual Evaluation Understudy) and some other less used metrics. By comparing these metrics, we assess the strengths and limitations of each, providing valuable insights in the area of translation quality evaluation.
Parallel corpora serve as the training data for machine translation models. However, they often contain noise and misaligned sentence pairs, which impact translation quality. In our study, we firstly study some tools, we mainly focus on Bicleaner, an effective tool for filtering noisy sentence pairs from parallel corpora. Bicleaner will make use of another studied tool for the cleaning of the data, Bifixer, which primary objective is to identify and fix misaligned sentence pairs within the parallel corpus.
In addition to Bicleaner, we investigate OpusFilter and OpusCleaner, specialized tools for cleaning and filtering parallel corpora. OpusFilter employs preprocessing, filtering, scoring, and classification techniques to remove noise, while OpusCleaner focuses specifically on the cleaning process, ensuring the consistency and integrity of parallel sentence pairs. Through detailed analyses, we highlight the effectiveness of these tools and their potential for improving translation quality.
The main objective of this work is the enhancement of Bicleaner. Firstly, the improvement of the Bicleaner classic model by training it on a wider corpora, incorporating probabilistic dictionaries and word frequency files. Through experiments, we demonstrate the improved accuracy and efficiency of the enhanced classic model.
Furthermore, we delve into enhancing the Bicleaner AI model, employing curriculum learning, we gradually increase the difficulty of training examples, allowing the model to learn from simpler to more complex sentence pairs. We also increase the hidden layer units from 2046 to 4096, enabling the model to capture more intricate patterns and dependencies. Additionally, we adjust the parameters used for noise generation during training, introducing more informative noise while preserving sentence integrity. Our results reveal the significant improvements achieved by these optimizations, enhancing the noise detection accuracy and preserving clean sentence pairs, leading to higher overall translation quality. The evaluation of the base model on our test set yielded the following metrics: precision of 0.841, recall of 0.883, F1 score of 0.862, and MCC (Matthews Correlation Coefficient) of 0.846. However, with the introduction of our new model, significant improvements were observed across all these metrics. The enhanced model achieved precision, recall, F1, and MCC values of 0.954, 0.970, 0.962, and 0.951, respectively. These results indicate a substantial enhancement in performance, highlighting the effectiveness and success of our proposed model.
In order to make use of these tools, and all the trained models, we find all the data, results obtained and instructions in this repository: https://github.com/anaarodeero/TFMTUs_results.
Item ID: | 75872 |
---|---|
DC Identifier: | https://oa.upm.es/75872/ |
OAI Identifier: | oai:oa.upm.es:75872 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 15 Sep 2023 07:31 |
Last Modified: | 15 Sep 2023 07:31 |