Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas

Jimenez Patricio, Francisco Javier (2009). Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas. Proyecto Fin de Carrera / Trabajo Fin de Grado, Facultad de Informática (UPM) [antigua denominación].

Descripción

Título: Técnicas de deduplicación de datos y aplicación en librerías virtuales de cintas
Autor/es:
  • Jimenez Patricio, Francisco Javier
Director/es:
  • Yagüez García, Javier
Tipo de Documento: Proyecto Fin de Carrera/Grado
Fecha: Julio 2009
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (5MB) | Vista Previa

Resumen

Las técnicas de deduplicación de datos son una serie de algoritmos y procedimientos computacionales que intentan localizar subconjuntos de datos repetidos ( duplicados ) dentro de un súper-conjunto de datos. Una vez localizados los subconjuntos duplicados, se pretende sustituirlos por referencias a la ocurrencia única de dicho subconjunto, reduciendo el espacio de almacenamiento necesario para alojar el conjunto de datos. Por ejemplo, supongamos un álbum de fotos en donde una de ellas se repite varias veces. La deduplicación del álbum de fotos consistiría en localizar las fotografías duplicadas y en la sustitución de las repeticiones por una indicación que dijera: Fotografía idéntica a la número xx. El proceso de deduplicación consiste tanto en la localización de datos duplicados como en su sustitución por referencias a la instancia única del objeto duplicado con objeto de reducir el espacio de almacenamiento requerido para alojar el conjunto de datos. Las técnicas de deduplicación son ideales para optimizar el uso del espacio de almacenamiento para conjuntos de datos que presenten un alto grado de duplicación. Por el contrario, si no existe duplicación en el conjunto de datos, las técnicas de deduplicación no podrán reducir dicho espacio. Los sistemas de copias de seguridad son claros candidatos donde encontrar duplicación (redundancia) en sus datos y por tanto, aprovecharse de sus beneficios en el ahorro de espacio de almacenamiento. Esto es debido a que las diferencias binarias entre las diferentes copias de seguridad de un sistema cliente suelen significar un porcentaje pequeño del espacio total (comparando los backups de un día y el siguiente, o los backups completos de un domingo y el domingo posterior). Adicionalmente, se encuentra duplicación de datos entre copias de seguridad de clientes diferentes pero de la misma tipología ( mismo sistema operativo, misma base de datos, etc. ). Las técnicas de deduplicación permiten ahorrar en el espacio de almacenamiento secundario puesto que en lugar de albergar dos copias de seguridad, se alberga una de ellas y los datos que diferencian la segunda de la primera. En la actualidad, las técnicas de deduplicación de datos están ampliamente adoptadas dentro de las librerías virtuales de cintas ( no así en las físicas ) siendo muy raro encontrar algún modelo que no las implemente en mayor medida o en su defecto, lo tenga en sus planes de evolución de producto. Es necesario también indicar que por el contrario, las técnicas de deduplicación de datos no suelen encontrarse ( salvo algunas excepciones ) en los almacenamientos primarios de los sistemas donde por razones del rendimiento de respuesta requerido, la carga computacional que los procedimientos de deduplicación añaden al almacenamiento no justifican el ahorro de espacio.

Más información

ID de Registro: 1803
Identificador DC: http://oa.upm.es/1803/
Identificador OAI: oai:oa.upm.es:1803
Depositado por: Archivo Digital UPM
Depositado el: 14 Sep 2009
Ultima Modificación: 20 Abr 2016 07:00
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM