Desarrollo de un sistema de segmentación automática de texto mecanografiado

Gómez Gutiérrez, Lydia (2019). Desarrollo de un sistema de segmentación automática de texto mecanografiado. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Desarrollo de un sistema de segmentación automática de texto mecanografiado
Author/s:
  • Gómez Gutiérrez, Lydia
Contributor/s:
  • Sáenz Lechón, Nicolás
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 17 July 2019
Subjects:
Freetext Keywords: Digitalización
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Ingeniería Audiovisual y Comunicaciones [hasta 2014]
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview
[img] Archive (ZIP) - Users in campus UPM only
Download (933kB)

Abstract

Este proyecto surge del intento de digitalizar el diario de Clemente Sáenz García, ya que tras varias pruebas con OCR comerciales se comprobó que las condiciones del texto no permiten resultados óptimos con sistemas de reconocimiento genéricos. Por lo tanto, las condiciones y restricciones de este diseño derivan de las características de las imágenes de entrada. El objetivo de este proyecto es el desarrollo de un sistema de segmentación de texto mecanografiado, que será integrado en un programa de reconocimiento óptico de caracteres. El sistema extrae los párrafos, palabras y caracteres de los que consta cada página de texto para su posterior reconocimiento. Se cuenta con instantáneas realizadas al diario encuadernado. Aunque las imágenes pasan un procesado previo a este sistema de segmentación, los renglones cuentan con curvatura que dificulta la segmentación del texto. Los procesos de segmentación se basan principalmente en el acumulado de píxeles de la imagen de entrada. Mediante estos acumulados es posible diferenciar las zonas de la imagen que contienen texto de las de fondo. Por lo tanto, aplicando diferentes umbrales de decisión se ha logrado acotar cada uno de los elementos de texto. El desarrollo completo del sistema se ha realizado en Matlab. Por otro lado, se ha creado una función que detecta la curvatura de las líneas de texto. Esta función se utiliza en el proceso previo de edición de la imagen para poder aplicar métodos que corrijan dicha curvatura. Como salida del programa de segmentación se cuenta con estructuras de datos que contienen los vértices de párrafos, palabras y caracteres. Además, ofrece la posibilidad de guardar cada palabra y carácter como una nueva imagen que pueda servir de entrada a un proceso posterior de reconocimiento. Junto con estos resultados se muestra visualmente la división creada, clasificando cada párrafo de texto como título, número de página, fecha de diario o cuerpo de texto. También, crea un resumen de dichos párrafos junto con el número de palabras y caracteres detectados. Por último, se ha creado una interfaz gráfica para facilitar la interacción del usuario con el programa. A través de esta interfaz se pueden ejecutar los procesos de segmentación; además, permite representar y evaluar los resultados obtenidos. Abstract: This project arises from the need to digitalize Clemente Sáenz García’s journal. Several tests performed with commercial OCRs revealed that the text conditions did not yield optimal results with generic recognition systems. Accordingly, the conditions and constraints of this design stem from the characteristics of the input images. The aim of this project is to develop a segmentation system of typed text, which will be integrated into an optical character recognition programme. The system isolates the paragraphs, words and characters on each text page for their subsequent recognition. We count on with photographs of the bound journal. Although these images had been previous processed, the lines of the text have a curvature which makes difficult the segmentation of the text. The segmentation processes are based on the pixels accumulation of the input image, which allowed differentiating the text areas from the background ones. Thus, by applying different decision thresholds to the system, it was possible to separate each element from the text. The full development of the system was conducted by Matlab. Furthermore, a function detecting the curvature of the text lines was created and used in the previous process of image edition, in order to develop a method for correcting the curvature of the lines. The outputs of the segmentation programme are data structures containing the apices of text paragraphs, words and characters. Additionally, the system offers the possibility of saving each word and character as a new image that can be used as the input of subsequent recognition processes. The programme shows the created segmentation, classifying each paragraph as a title, page number, journal date or as body text. Moreover, it provides a summary of these paragraphs along with the number of words and characters detected. Finally, a graphical interface was created to facilitate user interaction. In the interface is possible to run the segmentation process and show and evaluate the results.

More information

Item ID: 56882
DC Identifier: http://oa.upm.es/56882/
OAI Identifier: oai:oa.upm.es:56882
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 15 Oct 2019 06:22
Last Modified: 15 Oct 2019 06:22
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM