Aprendizaje profundo en la extracción de información de documentos de identidad

Nava Ortego, Iker de la (2020). Aprendizaje profundo en la extracción de información de documentos de identidad. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Aprendizaje profundo en la extracción de información de documentos de identidad
Author/s:
  • Nava Ortego, Iker de la
Contributor/s:
  • Manrique Gamo, Daniel
  • Jiménez Martín, Antonio
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

El procesamiento del lenguaje natural es una disciplina de la inteligencia artificial que trata de modelar el lenguaje humano en computadoras para que éstas puedan entenderlo, procesarlo, analizarlo, etc. Una de las tareas típicas dentro de este amplio campo es la de extraer del texto leído información interesante para el problema. En la literatura, este problema es conocido como ‘Information Extraction’, a partir de ahora IE por sus siglas en inglés. En este Trabajo Fin de Máster se exploran métodos de Deep Learning para extraer información de documentos de identidad de diferentes países. En este caso, se trata de extraer a partir del texto leído de un documento de identidad, el nombre del individuo, sus apellidos, fecha de nacimiento y otros datos de interés. Al tratarse de asignar partes de un documento a diferentes clases (nombre, apellido…) el trabajo tiene cierta similitud con el conocido problema de Reconocimiento de Entidades Nombradas (NER). A diferencia de muchos trabajos en el campo de IE, los documentos con los que se va a trabajar están estructurados en campos y por lo tanto no contienen contexto lingüístico. A pesar de ello, sí que tienen información relevante para la clasificación que no contienen los documentos no estructurados: la posición de los campos en el documento. Es por ello que combinando la información del texto leído con la de su posición se puede facilitar la tarea de la identificación del campo y, por tanto, la comprensión del documento. Recientemente también se ha elevado el interés en este tipo de documentos que contienen un contexto visual, de manera que existen trabajos que tratan el problema de IE en ellos. Hasta la fecha, todos estos trabajos abordan el problema de manera genérica para distintos tipos de documentos visualmente ricos (facturas, recibos…). Pero, los documentos de identidad contienen algunas particularidades que estos métodos no tienen en cuenta por lo que pueden tener algunos problemas en ellos. Una de las particularidades más importantes es el tipo de información que aparece en los documentos. En el caso de los de identidad, toda información es personal, mientras que en facturas etc. aunque también pueda haber información personal, gran parte no lo es. Otra particularidad es que los documentos de identidad tienen información importante en ambas caras, algo menos habitual en facturas. Además, es típico que un tipo de dato personal aparezca casi siempre en la misma cara del documento. Por ejemplo, la dirección suele aparecer en la parte trasera y nombre y apellidos en la delantera. Así, la aplicación de técnicas de IE a documentos de identidad es novedosa. Para el trabajo, se parte de que el texto del documento ha sido leído y localizado, es decir, se trabajará directamente con dicha información y no con la imagen del documento. El método empleado para resolverlo es el uso de convoluciones de grafos que contienen información textual y visual combinadas con una red Bi-LSTM-CRF que clasifique los campos de texto. Es un tipo de Red Neuronal Recurrente de la que sus siglas provienen de su nombre en inglés: Bilateral – Long Short Term Memory – Conditional Random Field. Además, se emplearán codificaciones de texto a nivel de carácter y características específicas de los documentos de identidad. Con esto, se mejora la precisión de clasificación respecto al uso de codificaciones a nivel de palabra y de características genéricas de todos los documentos. Se probarán otras propuestas más simples, como por ejemplo que solo se tenga en cuenta la información textual y no la visual. Esto demostrará que la información visual es de gran utilidad para mejorar la precisión en la predicción. El sistema propuesto se evalúa sobre un conjunto de datos sintéticos para no utilizar información personal, por lo que se propone, asimismo, un método de generación de datos de documentos de identidad que podría ser empleado en otros problemas de aprendizaje automático.---ABSTRACT---Natural Language Processing is a discipline of Artificial Intelligence aimed at modeling human language on computers to understand it, process it, analyze it etc. One of the usual tasks in this wide field is to extract interesting information from the read text. This problem is well known as Information Extraction, IE from now on. In this master’s final project, Deep Learning techniques will be explored for extracting information from identity documents from different countries. In this case, the task consists of extracting from a text read from de document the name, surname, birthdate, and other interesting fields. As it is about assigning classes (name, surname, birthdate etc.) to document fragments, the problem is similar to Named Entity Recognition (NER). Unlike lots of works on IE field, that documents are structured, so it does not exist a linguistic context. Despite that, they do have relevant information for the entity recognition that unstructured documents do not have: the position of the fields on the image. Therefore, combining the information of the read text with information about its position we could have a better understanding of the document, becoming the classification task much easier. Recently, interest has also risen in such visually rich documents. For that reason, some works try to solve IE problems on them. Till the date, all these works try to solve the problem in a general way for different types of visually rich documents (invoices, receipts…). But identity documents have some particularities that are not concerned in that methods, so they could have some problems when analyzing them. One of the particularities is the kind of information we find in the documents. In the case of the identity documents almost all the information is personal, whereas in invoices, etc. even we can find some personal information, most of the information on them is not personal. Other singularity is that identity documents have useful information in both sides of the document. Moreover, typically a type of personal data most of the times appears on the same side of the document. For instance, the address use to appear in the back part and the name and surname in the front. Hence, the application of IE techniques to identity documents is novel. For that work, we will start with the text on the document already read and localized, i.e. we will work directly on that information and not with the document image. The method used for solving the problem is a graph convolution that mixes visual and textual information of the document combined with a Bi-LSTM-CRF that classifies its fields into a set of predefined classes. Acronym of Bilateral – Long Short Term Memory – Conditional Random Field, which is a type of Recurrent Neural Network. Character level text codifications will be used instead of word level codifications. Some specific features of the identity documents will be introduced in the node codification. With this, precision will be improved with respect to using word level codifications and more general features. We will try simpler compare this approach to simpler approaches. This will show the utility of the visual information in the prediction. Our model is evaluated in synthetic data in order to avoid using personal information. For that, it is also proposed a method for generating identity document data that could also be used in other machine learning problems.

More information

Item ID: 63021
DC Identifier: http://oa.upm.es/63021/
OAI Identifier: oai:oa.upm.es:63021
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Jul 2020 07:35
Last Modified: 15 Jul 2020 07:35
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM