Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf

Argüelles Alvarez, Irina y Muñoz Muñoz, Alfonso (2014). Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf. "Arbor. Ciencia, Pensamiento y Cultura", v. 190 (n. 768); pp. 1-17. ISSN 0210-1963. https://doi.org/10.3989/arbor.2014.768n4014.

Descripción

Título: Esteganografía lingüística en lengua española basada en el modelo N-Gram y la ley de Zipf
Autor/es:
  • Argüelles Alvarez, Irina
  • Muñoz Muñoz, Alfonso
Tipo de Documento: Artículo
Título de Revista/Publicación: Arbor. Ciencia, Pensamiento y Cultura
Fecha: Julio 2014
Volumen: 190
Materias:
Palabras Clave Informales: Esteganografía lingüística; generación automática de estegotextos; N-Gram; algoritmo. Linguistic steganography; automatic generation of stegotexts; N-gram; algorithm.
Escuela: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Departamento: Lingüistica Aplicada a la Ciencia y a la Tecnología
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

La esteganografía lingüística es una ciencia que se aprovecha de la lingüística computacional para diseñar sistemas útiles en la protección y la privacidad de las comunicaciones digitales y en el marcado digital de textos. En los últimos años se han documentado múltiples formas de alcanzar este objetivo. En este artículo se analiza la posibilidad de generar automáticamente textos en lenguaje natural en lengua española que oculten una información dada. Se proponen una serie de hipótesis y se experimenta mediante la implementación de un algoritmo. Las pruebas realizadas indican que es factible utilizar modelos N-Gram y peculiaridades derivadas de la ley de Zipf para generar estegotextos con una calidad lingüística tal que un lector humano podría no diferenciarlo de otro texto auténtico. Los estegotextos obtenidos permitirán la ocultación de al menos 0,5 bits por palabra generada. ABSTRACT. Linguistic Steganography is a science that utilises computational linguistics to design systems that can be used to protect and ensure the privacy of digital communications and for the digital marking of texts. Various proposed ways of achieving this goal have been documented in recent years. This paper analyses the possibility of generating natural language texts in Spanish that conceal information automatically. A number of hypotheses are put forward and tested using an algorithm. Experimental evidence suggests that it is feasible to use N-gram models and specific features of the Zipf law to generate stegotexts with a good linguistic quality where human readers could not differentiate the stegotext from authentic texts. The stegotexts obtained allow the concealment of at least 0.5 bits per word generated.

Más información

ID de Registro: 40258
Identificador DC: http://oa.upm.es/40258/
Identificador OAI: oai:oa.upm.es:40258
Identificador DOI [BETA]: 10.3989/arbor.2014.768n4014
URL Oficial: http://arbor.revistas.csic.es/index.php/arbor/article/view/1962/2302
Depositado por: Memoria Investigacion
Depositado el: 21 Mar 2017 16:53
Ultima Modificación: 21 Mar 2017 16:53
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM