Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf

Argüelles Alvarez, Irina and Muñoz Muñoz, Alfonso (2014). Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf. "Arbor. Ciencia, Pensamiento y Cultura", v. 190 (n. 768); pp. 1-17. ISSN 0210-1963. https://doi.org/10.3989/arbor.2014.768n4014.

Description

Title: Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf
Author/s:
  • Argüelles Alvarez, Irina
  • Muñoz Muñoz, Alfonso
Item Type: Article
Título de Revista/Publicación: Arbor. Ciencia, Pensamiento y Cultura
Date: July 2014
Volume: 190
Subjects:
Freetext Keywords: Esteganografía lingüística; generación automática de estegotextos; N-Gram; algoritmo. Linguistic steganography; automatic generation of stegotexts; N-gram; algorithm.
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Lingüistica Aplicada a la Ciencia y a la Tecnología
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

La esteganografía lingüística es una ciencia que se aprovecha de la lingüística computacional para diseñar sistemas útiles en la protección y la privacidad de las comunicaciones digitales y en el marcado digital de textos. En los últimos años se han documentado múltiples formas de alcanzar este objetivo. En este artículo se analiza la posibilidad de generar automáticamente textos en lenguaje natural en lengua española que oculten una información dada. Se proponen una serie de hipótesis y se experimenta mediante la implementación de un algoritmo. Las pruebas realizadas indican que es factible utilizar modelos N-Gram y peculiaridades derivadas de la ley de Zipf para generar estegotextos con una calidad lingüística tal que un lector humano podría no diferenciarlo de otro texto auténtico. Los estegotextos obtenidos permitirán la ocultación de al menos 0,5 bits por palabra generada. ABSTRACT. Linguistic Steganography is a science that utilises computational linguistics to design systems that can be used to protect and ensure the privacy of digital communications and for the digital marking of texts. Various proposed ways of achieving this goal have been documented in recent years. This paper analyses the possibility of generating natural language texts in Spanish that conceal information automatically. A number of hypotheses are put forward and tested using an algorithm. Experimental evidence suggests that it is feasible to use N-gram models and specific features of the Zipf law to generate stegotexts with a good linguistic quality where human readers could not differentiate the stegotext from authentic texts. The stegotexts obtained allow the concealment of at least 0.5 bits per word generated.

More information

Item ID: 40258
DC Identifier: http://oa.upm.es/40258/
OAI Identifier: oai:oa.upm.es:40258
DOI: 10.3989/arbor.2014.768n4014
Official URL: http://arbor.revistas.csic.es/index.php/arbor/article/view/1962/2302
Deposited by: Memoria Investigacion
Deposited on: 21 Mar 2017 16:53
Last Modified: 21 Mar 2017 16:53
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM