Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres

Sánchez Prieto, María (2019). Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Descripción

Título: Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres
Autor/es:
  • Sánchez Prieto, María
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Ingeniería de Sonido e Imagen
Fecha: 17 Julio 2019
Materias:
ODS:
Palabras Clave Informales: Digitalización
Escuela: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Departamento: Ingeniería Audiovisual y Comunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_MARIA_SANCHEZ_PRIETO.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

El reconocimiento óptico de caracteres (OCR, Optical Character Recognition) es una tecnología que permite la digitalización de textos a partir de imágenes de caracteres pertenecientes a un alfabeto. Mediante esta tecnología, es posible identificar y almacenar los datos de las imágenes, pudiendo obtener un documento de texto que permita la interacción con los caracteres. El propósito general del proyecto es el desarrollo de un subsistema de preprocesado de imágenes, dentro de un sistema de OCR mayor, que realice una mejora sobre las imágenes originales, facilitando así los posteriores procesos de segmentación y reconocimiento. Las imágenes originales se corresponden con las fotografías del texto de un diario escrito a máquina de escribir dividido en 15 tomos. El tomo más fino tiene 200 páginas y el más grueso 500. En total existen unas 5420 cuartillas mecanografiadas. Como conjunto de imágenes de muestra a utilizar en el desarrollo de este proyecto se utilizarán 225 fotografías en color tomadas del principio, mitad y final de cada uno de los 15 tomos del diario. La herramienta utilizada para implementar el sistema es Matlab, un sistema de cómputo numérico que ofrece un entorno de desarrollo integrado con un lenguaje de programación propio. Dentro de los paquetes ofrecidos por Matlab, se ha utilizado el paquete Image Processing Toolbox, que proporciona una serie de funciones específicas para el tratamiento, análisis y visualización de imágenes digitales. Además se utilizará la herramienta App Designer de Matlab para desarrollar aplicaciones gráficas sencillas que permiten mostrar los resultados finales al usuario con GUI (Graphical User Interface). Para la implementación del sistema se ha seguido un desarrollo incremental, programando por separado y en orden una serie de funciones necesarias para alcanzar los objetivos parciales propuestos: eliminar las zonas de la imagen que no corresponden con la página, corregir la iluminación no uniforme y rectificar las posibles distorsiones geométricas del texto. Tras el desarrollo de todas estas funciones, y su validación con el conjunto de imágenes seleccionado, se consiguen unos resultados satisfactorios que corrigen los errores o deficiencias de la mayoría de las imágenes originales, dejando el texto en unas condiciones parecidas a las que tendría si hubiera sido escaneado. Este procesado facilita las labores posteriores para el reconocimiento óptico de caracteres. Abstract: Optical Character Recognition (OCR) is a technology that allows text images digitalization starting from characters images belonging to an alphabet. Through this technology, it is possible to identify and store image’s data, obtaining a text document that permit the interaction with the characters. The project’s main purpose is the development of an image preprocessing system, inside a bigger OCR system, improving the original images, making easier the subsequent segmentation and recognition processes. Original images are color photographs of a typed diary divided into 15 volumes. Thinnest volume has 200 pages and the thickest one has 500 pages. There are about 5420 typed pages. In this project, 225 images taken from the beginning, middle and end of each volume are going to be used as sample set. The tool used to develop the system is Matlab, a numerical computing system that offers an integrated development environment with its own programming language. Within the packages offered by Matlab, the Image Processing Toolbox will be used, since it provides specific functions for image processing, analysis, visualization and algorithm development. Graphical User Interface (GUI) from Matlab App Designer is used to develop a graphic app that shows final results to the user. Incremental development has been used for this project. Each function needed to reach the project’s partial targets has been implemented separately and following a logical order in image processing: removing the part of the image that does not correspond to the page, correcting the non-uniform lighting and rectifying the geometric distortions of the text. After developing all these functions, and validating them with the set of images sample, satisfactory results that fix the deficiencies of most original images are obtained, getting a processed image that resembles a scanned image. This processing facilitates the next steps, segmentation and recognition, on the optical character recognition.

Más información

ID de Registro: 56946
Identificador DC: https://oa.upm.es/56946/
Identificador OAI: oai:oa.upm.es:56946
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 18 Oct 2019 12:05
Ultima Modificación: 18 Oct 2019 12:05