Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas

Jimenez Patricio, Francisco Javier (2009). Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas. Proyecto Fin de Carrera / Trabajo Fin de Grado, Facultad de Informática (UPM).

Description

Title: Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas
Author/s:
  • Jimenez Patricio, Francisco Javier
Contributor/s:
  • Yagüez García, Javier
Item Type: Final Project
Date: July 2009
Subjects:
Faculty: Facultad de Informática (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview

Abstract

Las técnicas de deduplicación de datos son una serie de algoritmos y procedimientos computacionales que intentan localizar subconjuntos de datos repetidos ( duplicados ) dentro de un súper-conjunto de datos. Una vez localizados los subconjuntos duplicados, se pretende sustituirlos por referencias a la ocurrencia única de dicho subconjunto, reduciendo el espacio de almacenamiento necesario para alojar el conjunto de datos. Por ejemplo, supongamos un álbum de fotos en donde una de ellas se repite varias veces. La deduplicación del álbum de fotos consistiría en localizar las fotografías duplicadas y en la sustitución de las repeticiones por una indicación que dijera: Fotografía idéntica a la número xx. El proceso de deduplicación consiste tanto en la localización de datos duplicados como en su sustitución por referencias a la instancia única del objeto duplicado con objeto de reducir el espacio de almacenamiento requerido para alojar el conjunto de datos. Las técnicas de deduplicación son ideales para optimizar el uso del espacio de almacenamiento para conjuntos de datos que presenten un alto grado de duplicación. Por el contrario, si no existe duplicación en el conjunto de datos, las técnicas de deduplicación no podrán reducir dicho espacio. Los sistemas de copias de seguridad son claros candidatos donde encontrar duplicación (redundancia) en sus datos y por tanto, aprovecharse de sus beneficios en el ahorro de espacio de almacenamiento. Esto es debido a que las diferencias binarias entre las diferentes copias de seguridad de un sistema cliente suelen significar un porcentaje pequeño del espacio total (comparando los backups de un día y el siguiente, o los backups completos de un domingo y el domingo posterior). Adicionalmente, se encuentra duplicación de datos entre copias de seguridad de clientes diferentes pero de la misma tipología ( mismo sistema operativo, misma base de datos, etc. ). Las técnicas de deduplicación permiten ahorrar en el espacio de almacenamiento secundario puesto que en lugar de albergar dos copias de seguridad, se alberga una de ellas y los datos que diferencian la segunda de la primera. En la actualidad, las técnicas de deduplicación de datos están ampliamente adoptadas dentro de las librerías virtuales de cintas ( no así en las físicas ) siendo muy raro encontrar algún modelo que no las implemente en mayor medida o en su defecto, lo tenga en sus planes de evolución de producto. Es necesario también indicar que por el contrario, las técnicas de deduplicación de datos no suelen encontrarse ( salvo algunas excepciones ) en los almacenamientos primarios de los sistemas donde por razones del rendimiento de respuesta requerido, la carga computacional que los procedimientos de deduplicación añaden al almacenamiento no justifican el ahorro de espacio.

More information

Item ID: 1803
DC Identifier: http://oa.upm.es/1803/
OAI Identifier: oai:oa.upm.es:1803
Deposited by: Archivo Digital UPM
Deposited on: 14 Sep 2009
Last Modified: 20 Apr 2016 07:00
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM