Diseño y contrucción de una herramienta tecnológica basada en técnicas de procesamiento de lenguaje natural y aprendizaje automático para clasificación de correos de una entidad bancaria

González Herrero, Daniela (2017). Diseño y contrucción de una herramienta tecnológica basada en técnicas de procesamiento de lenguaje natural y aprendizaje automático para clasificación de correos de una entidad bancaria. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Descripción

Título: Diseño y contrucción de una herramienta tecnológica basada en técnicas de procesamiento de lenguaje natural y aprendizaje automático para clasificación de correos de una entidad bancaria
Autor/es:
  • González Herrero, Daniela
Director/es:
  • Uruburu Colsa, Ángel
Tipo de Documento: Proyecto Fin de Carrera/Grado
Fecha: Julio 2017
Materias:
Escuela: E.T.S.I. Industriales (UPM)
Departamento: Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

El objetivo del proyecto es diseñar una aplicación tecnológica basada en el Procesamiento de Lenguaje Natural y algoritmos estadísticos de Aprendizaje Automático para clasificar de forma automatizada correos de clientes corporativos en una Entidad Bancaria. Actualmente el proceso de clasificación de los correos que envían los clientes corporativos es realizado por 14 operarios, y diariamente se reciben alrededor de 7000 correos, el equipo de operarios debe leer cada correo y en función de su contenido los clasifican. Dada la importancia que tiene la motivación de los trabajadores de cara a obtener el mayor rendimiento profesional posible, un trabajo de la índole del anteriormente comentado resulta contraproducente, pudiendo no sólo no permitirles desarrollarse profesionalmente de la mejor manera posible, si no haciendo que su trabajo sea realizado con desgana y en ocasiones erróneamente. Esto conduce a problemas en el funcionamiento normal de la empresa, teniendo que recurrir en muchas ocasiones a una reclasificación de los correos y un retardo en el tiempo que no permite que las tareas se desarrollen de manera eficiente. Ante esta situación, se plantean diferentes soluciones de las cuales se adopta la que será motivo de este Trabajo de Fin de Grado. La solución propuesta se apoya en una combinación de tecnologías de Procesamiento de Lenguaje Natural y Aprendizaje Automático, técnicas innovadoras que, además de cumplir con el objetivo satisfactoriamente, reducen el tiempo de análisis de los correos recibidos. Para el correcto modelado de la herramienta se llegó al acuerdo con la Entidad Bancaria que esta proporcionará un volumen de un mínimo de 1000 correos clasificados por categoría. La disciplina de Procesamiento de Lenguaje Natural permite a la máquina ‘’entender’’ el lenguaje escrito. Para ello, prepara y transforma datos generados por fuentes heterogéneas y que no siguen un orden predeterminado, en datos estructurados que pueden ser procesados por una máquina. El Aprendizaje Automático es una ciencia basada en algoritmos estadísticos utilizados para el procesamiento de grandes cantidades de datos (Big Data), con el objetivo de sacar el mayor provecho de los mismos. A través de esta disciplina es posible comprender los datos obtenidos mediante agrupaciones, asociaciones, predicciones, clasificación o descubrimiento de atributos entre otras. El modelado de la herramienta de clasificación de correos se divide en dos grandes bloques diferenciados. En el primero de ellos se realiza un tratamiento y preparación de los datos en bruto, para adaptarlos a los requerimientos necesarios para la ejecución del segundo bloque, en el cual se aplican los algoritmos estadísticos que determinarán la clasificación de cada correo. La metodología se divide en cuatro etapas: - Descubrimiento de datos: Antes de comenzar el desarrollo de la herramienta de clasificación, también llamada herramienta predictora, es de vital importancia comprender los datos que serán tratados. Por razones de privacidad de datos la Entidad Bancaria no pudo proporcionar el volumen de correos acordado originalmente, y de las 54 categorías iniciales en las que se pretendía realizar la clasificación, se diseña una herramienta capaz de clasificar 10 categorías. Este punto es muy importante dado que se han identificado dos tareas (Transferencias y OMF), en las cuales los clientes realizan movimientos de cantidades notables de dinero. Por esta razón la precisión que requiere la herramienta es bastante alta, suponiendo un reto importante a la hora de su diseño y construcción. - Pre-procesamiento de datos: En esta fase se utilizan las técnicas de Procesamiento de Lenguaje Natural. La tareas desarrolladas en esta fase se centran en purga y limpieza de datos, así como la estandarización del formato mediante : - Toquenización: Proceso por el cual se divide el texto completo de cada correo en palabras que posteriormente serán tratadas como componentes de un vector. - Identificación y eliminación de stop words según metodología TDF-ID: Eliminación de palabras que no aportan valor. - Lematización: Obtener el lexema de cada palabra para reducir el diccionario total. - Bag of words: Transformar cada correo en un vector que lo represente. - Desarrollo de modelo: Para la construcción del modelo se ha determinado que la situación propuesta es un problema de clasificación y aprendizaje supervisado, es decir, los correos proporcionados por la Entidad Bancaria se dividirán en 3 grandes grupos. Con el primer conjunto, que representa un 70% de los correos recibidos se realiza el ajuste y entrenamiento de los algoritmos, y con el resto de correos se despeñan las tareas de validación para verificar el porcentaje de acierto de las predicciones realizadas por el modelo. Existen numerosos algoritmos de clasificación, tras un estudio realizado se proponen cuatro algoritmos posibles en los que fundamentar el diseño de la herramienta. Las variables. tomadas en cuenta para la selección de los algoritmos fueron la precisión, adaptabilidad a los datos, linealidad y complejidad teórica de cara al cliente. Los algoritmos tanteados fueron: - Regresión logística - Naive Bayes - Clasificador Adaboost - Radom Forest - Validación y pruebas: Tanto para verificar el correcto funcionamiento de las hipótesis diseñadas, como para seleccionar el algoritmo que se utilizará en el modelo, se llevan a cabo tareas de comprobación. Para las tareas de validación y pruebas se utilizan correos que no han sido empleados durante el entrenamiento de los algoritmos, de manera que se introduzcan en el modelo, éste realice una predicción y los resultados son comparados con las clasificaciones reales aportadas por la Entidad Bancaria. La técnica para validación del modelo desarrollado fueron las matrices de confusión. En esta fase, debido a los resultados, inferiores al 75% de acierto, se han descartado los algoritmos de Adaboost y Naive Bayes. Los porcentajes de aciertos de los dos algoritmos restantes son muy parecidos (83,5% con Random Forest y 76,7% con Regresión Lineal), de manera que la selección del algoritmo final se fundamenta en la flexibilidad del modelo. De cara a la Entidad Bancaria, la herramienta tendrá valor agregado si en caso de cambiones funcionales es capaz de adaptarse a los cambios sin necesidad de volver a diseñar otra herramienta de clasificación. El algoritmo seleccionado es el algoritmo de Random Forest, el umbral de acierto superior al 80% refleja un muy buen desempeño del modelo, ya que se debe tener en cuenta la complejidad del caso, debida a: - Dificultad de diferenciación entre algunas tareas por la gran similitud que presentan entre ellas. - Subjetivad por parte de los operarios que clasifican actualmente los correos, por lo que pueden surgir incongruencias en algunas clasificaciones. - Correos redactados por distintas personas ( edades, culturas, formas de expresión variadas) - Ambigüedad del lenguaje escrito. - Número elevado de clasificaciones. El resultado representa la correcta clasificación de un alto número de correos, cumpliéndose así el objetivo fijado. Aquellos correos en los que la herramienta no tenga una seguridad suficientemente alta (más del 90%), se redirigirán a un operario, encargado de clasificarlos manualmente. Una vez clasificados, los correos vuelven a entrar en la herramienta para que esta ‘’aprenda’’ de aquellos casos que en un principio no supo clasificar. El desarrollo triunfante demostrado por el porcentaje de acierto indica que la hipótesis de modelado planteada es correcta, y que, efectivamente se puede construir una herramienta capaz de clasificar de manera automática los correos enviados por los clientes corporativos de la entidad bancaria. Debido al éxito que tuvo la herramienta actualmente hay negociaciones con la Entidad Bancaria para poner en producción el modelo y clasificar el total de los 54 tipos de tareas. Para ampliar el alcance de la clasificación no se requiere de modificaciones exhaustivas, sin embargo al ampliarlo se debería tener un control íntegro del correcto funcionamiento del mismo.

Más información

ID de Registro: 48921
Identificador DC: http://oa.upm.es/48921/
Identificador OAI: oai:oa.upm.es:48921
Depositado por: Biblioteca ETSI Industriales
Depositado el: 28 Dic 2017 08:35
Ultima Modificación: 28 Dic 2017 08:35
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM