Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview |
Jimenez Patricio, Francisco Javier (2009). Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas. Proyecto Fin de Carrera / Trabajo Fin de Grado, Facultad de Informática (UPM).
Title: | Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Date: | July 2009 |
Subjects: | |
Faculty: | Facultad de Informática (UPM) |
Department: | Lenguajes y Sistemas Informáticos e Ingeniería del Software |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview |
Las técnicas de deduplicación de datos son una serie de algoritmos y procedimientos computacionales que intentan localizar subconjuntos de datos repetidos ( duplicados ) dentro de un súper-conjunto de datos. Una vez localizados los subconjuntos duplicados, se pretende sustituirlos por referencias a la ocurrencia única de dicho subconjunto, reduciendo el espacio de almacenamiento necesario para alojar el conjunto de datos. Por ejemplo, supongamos un álbum de fotos en donde una de ellas se repite varias veces. La deduplicación del álbum de fotos consistiría en localizar las fotografías duplicadas y en la sustitución de las repeticiones por una indicación que dijera: Fotografía idéntica a la número xx. El proceso de deduplicación consiste tanto en la localización de datos duplicados como en su sustitución por referencias a la instancia única del objeto duplicado con objeto de reducir el espacio de almacenamiento requerido para alojar el conjunto de datos. Las técnicas de deduplicación son ideales para optimizar el uso del espacio de almacenamiento para conjuntos de datos que presenten un alto grado de duplicación. Por el contrario, si no existe duplicación en el conjunto de datos, las técnicas de deduplicación no podrán reducir dicho espacio. Los sistemas de copias de seguridad son claros candidatos donde encontrar duplicación (redundancia) en sus datos y por tanto, aprovecharse de sus beneficios en el ahorro de espacio de almacenamiento. Esto es debido a que las diferencias binarias entre las diferentes copias de seguridad de un sistema cliente suelen significar un porcentaje pequeño del espacio total (comparando los backups de un día y el siguiente, o los backups completos de un domingo y el domingo posterior). Adicionalmente, se encuentra duplicación de datos entre copias de seguridad de clientes diferentes pero de la misma tipología ( mismo sistema operativo, misma base de datos, etc. ). Las técnicas de deduplicación permiten ahorrar en el espacio de almacenamiento secundario puesto que en lugar de albergar dos copias de seguridad, se alberga una de ellas y los datos que diferencian la segunda de la primera. En la actualidad, las técnicas de deduplicación de datos están ampliamente adoptadas dentro de las librerías virtuales de cintas ( no así en las físicas ) siendo muy raro encontrar algún modelo que no las implemente en mayor medida o en su defecto, lo tenga en sus planes de evolución de producto. Es necesario también indicar que por el contrario, las técnicas de deduplicación de datos no suelen encontrarse ( salvo algunas excepciones ) en los almacenamientos primarios de los sistemas donde por razones del rendimiento de respuesta requerido, la carga computacional que los procedimientos de deduplicación añaden al almacenamiento no justifican el ahorro de espacio.
Item ID: | 1803 |
---|---|
DC Identifier: | https://oa.upm.es/1803/ |
OAI Identifier: | oai:oa.upm.es:1803 |
Deposited by: | Archivo Digital UPM |
Deposited on: | 14 Sep 2009 |
Last Modified: | 20 Apr 2016 07:00 |