Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres

Sánchez Prieto, María (2019). Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Desarrollo de un subsistema de preprocesado de imágenes para un sistema de reconocimiento óptico de caracteres
Author/s:
  • Sánchez Prieto, María
Contributor/s:
  • Sáenz Lechón, Nicolás
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 17 July 2019
Subjects:
Freetext Keywords: Digitalización
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Ingeniería Audiovisual y Comunicaciones [hasta 2014]
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

El reconocimiento óptico de caracteres (OCR, Optical Character Recognition) es una tecnología que permite la digitalización de textos a partir de imágenes de caracteres pertenecientes a un alfabeto. Mediante esta tecnología, es posible identificar y almacenar los datos de las imágenes, pudiendo obtener un documento de texto que permita la interacción con los caracteres. El propósito general del proyecto es el desarrollo de un subsistema de preprocesado de imágenes, dentro de un sistema de OCR mayor, que realice una mejora sobre las imágenes originales, facilitando así los posteriores procesos de segmentación y reconocimiento. Las imágenes originales se corresponden con las fotografías del texto de un diario escrito a máquina de escribir dividido en 15 tomos. El tomo más fino tiene 200 páginas y el más grueso 500. En total existen unas 5420 cuartillas mecanografiadas. Como conjunto de imágenes de muestra a utilizar en el desarrollo de este proyecto se utilizarán 225 fotografías en color tomadas del principio, mitad y final de cada uno de los 15 tomos del diario. La herramienta utilizada para implementar el sistema es Matlab, un sistema de cómputo numérico que ofrece un entorno de desarrollo integrado con un lenguaje de programación propio. Dentro de los paquetes ofrecidos por Matlab, se ha utilizado el paquete Image Processing Toolbox, que proporciona una serie de funciones específicas para el tratamiento, análisis y visualización de imágenes digitales. Además se utilizará la herramienta App Designer de Matlab para desarrollar aplicaciones gráficas sencillas que permiten mostrar los resultados finales al usuario con GUI (Graphical User Interface). Para la implementación del sistema se ha seguido un desarrollo incremental, programando por separado y en orden una serie de funciones necesarias para alcanzar los objetivos parciales propuestos: eliminar las zonas de la imagen que no corresponden con la página, corregir la iluminación no uniforme y rectificar las posibles distorsiones geométricas del texto. Tras el desarrollo de todas estas funciones, y su validación con el conjunto de imágenes seleccionado, se consiguen unos resultados satisfactorios que corrigen los errores o deficiencias de la mayoría de las imágenes originales, dejando el texto en unas condiciones parecidas a las que tendría si hubiera sido escaneado. Este procesado facilita las labores posteriores para el reconocimiento óptico de caracteres. Abstract: Optical Character Recognition (OCR) is a technology that allows text images digitalization starting from characters images belonging to an alphabet. Through this technology, it is possible to identify and store image’s data, obtaining a text document that permit the interaction with the characters. The project’s main purpose is the development of an image preprocessing system, inside a bigger OCR system, improving the original images, making easier the subsequent segmentation and recognition processes. Original images are color photographs of a typed diary divided into 15 volumes. Thinnest volume has 200 pages and the thickest one has 500 pages. There are about 5420 typed pages. In this project, 225 images taken from the beginning, middle and end of each volume are going to be used as sample set. The tool used to develop the system is Matlab, a numerical computing system that offers an integrated development environment with its own programming language. Within the packages offered by Matlab, the Image Processing Toolbox will be used, since it provides specific functions for image processing, analysis, visualization and algorithm development. Graphical User Interface (GUI) from Matlab App Designer is used to develop a graphic app that shows final results to the user. Incremental development has been used for this project. Each function needed to reach the project’s partial targets has been implemented separately and following a logical order in image processing: removing the part of the image that does not correspond to the page, correcting the non-uniform lighting and rectifying the geometric distortions of the text. After developing all these functions, and validating them with the set of images sample, satisfactory results that fix the deficiencies of most original images are obtained, getting a processed image that resembles a scanned image. This processing facilitates the next steps, segmentation and recognition, on the optical character recognition.

More information

Item ID: 56946
DC Identifier: http://oa.upm.es/56946/
OAI Identifier: oai:oa.upm.es:56946
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 18 Oct 2019 12:05
Last Modified: 18 Oct 2019 12:05
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM