Hacer copias de datos
Varias tecnologías se han inventado y comercializado para hacer frente a los riesgos de pérdida y corrupción de datos. Estas soluciones ofrecen a los gestores una combinación de sistemas en cuanto a fiabilidad, funcionalidad, y costes. Algunas de las tecnologías utilizadas incluyen las siguientes:
Tecnologías de almacenamiento
Copia Espejo (Mirroring) se ha desarrollado para proteger los datos contra fallos de hardware en un sistema de almacenamiento. En las copias espejo, se mantienen dos o más versiones idénticas del mismo conjunto de archivos o datos. En el caso de que la copia principal de los datos se convierte en inaccesible, el otro – la imagen espejo – está disponible automáticamente. Con el costo de duplicar el hardware de discos duros, esta copia es relativamente cara. Tampoco proporciona ninguna protección contra una corrupción de datos, infección por virus, o eliminación de archivos. Estos errores simplemente se escriben en ambas copias y por lo tanto, ambas estarán mal.
Matriz de discos (RAID – matriz redundante de discos independientes) es una colección de más de dos discos conectados a una controladora especializada y gestionada por software. Las diferentes configuraciones de «RAID» incluyen discos en espejo, discos de conjunto a bandas (donde los datos se escriben a través de un número de discos de forma simultánea para reducir las lecturas y escrituras), y los discos con paridad (que proporcionan redundancia si un disco falla, pero sin la necesidad de duplicar totalmente el hardware). Todas las diversas configuraciones de RAID proporcionan mejoras en la confiabilidad y el rendimiento, o ambos. Una vez más, sin embargo, RAID no protege contra datos corruptos, infección por virus, o eliminación de archivos.
Como la copia espejo, la Replicación de Datos mantiene varias copias de los datos. Pero a diferencia de la copia espejo, la replicación tiende a implicar el movimiento de datos a distancia, en un sentido físico o lógico. La replicación también implica generalmente que los datos originales y su copia replicada no están necesariamente sincronizados instantáneamente. Soluciones de replicación están generalmente basadas en software.
Proveedores de Almacenamiento en la Nube, alquilan espacio en disco, generalmente por un costo gigabyte/mes, para las empresas que no quieren comprar y gestionar todo el espacio que necesitan. Estos proveedores utilizan tecnologías de replicación y RAID para asegurar que los datos de sus clientes sigue estando disponible. No obstante, suelen ofrecer otros servicios de gestión de almacenamiento como las copias de seguridad, restauración, archivado o deduplicación. Los clientes que deseen estos servicios se los deben realizar ellos mismos o buscar proveedores adicionales.
Sistemas de gestión de almacenamiento jerárquico (HSM – Hierarchical Storage Management) también hace copias de los datos, pero su objetivo es ahorrar dinero, no para proporcionar redundancia. Cuando un archivo no se ha utilizado en un plazo determinado de tiempo, por lo general meses o incluso años, HSM mueve los datos a un medio de almacenamiento más lento y menos costoso, por lo general, una biblioteca de cintas, dejando «tickets de recuperación» en lugar de los archivos de datos originales. Estos tickets dejan el archivo original visible para el sistema operativo de forma que cuando un usuario necesita acceder al mismo, el sistema HSM recupera los datos en segundo plano de los medios de copia más lentos, casi en línea y los proporciona a el usuario. El propósito principal de este sistema es reducir el costo de almacenamiento de datos, todavía hay sólo una copia de los datos. Una solución de copia de seguridad sigue siendo necesaria para proteger contra cualquier tipo de pérdida o corrupción de datos.
Archivado es el siguiente paso después de HSM. Después que los datos llegan a cierta edad o cumplen otros criterios definidos por la empresa, se mueve permanentemente del almacenamiento en línea al almacenamiento fuera de línea. Los datos archivados se suelen conservar durante largos periodos de tiempo, por lo general más de un año, y se recuperan sólo en circunstancias excepcionales. Los administradores de sistemas tienen que mover y colocar los medios físicos donde se guardan dichos datos con el fin de poder restaurarlos el día de mañana. Un archivo se identifica no sólo por los datos que contiene, sino por el punto en el tiempo en que se traspaso el archivo al almacenamiento fuera de línea.
Compresión se refiere a una familia de tecnologías diseñadas para ahorrar espacio de almacenamiento mediante el reconocimiento de patrones en los datos almacenados. Los datos comprimidos se crean mediante la reescritura de los datos originales en un formato más eficiente. Cuando se usan los datos, la descompresión se utiliza para volver a recrear los datos originales.
Deduplicación es una forma de compresión que reconoce cuando un archivo, bloque de datos, o una cadena de bytes es idéntica a otra que ya está almacenado en el sistema. A continuación, se elimina una de las copias, dejando sólo una referencia de la segunda copia a la primera. El objetivo de la deduplicación es ahorrar espacio de almacenamiento, o ahorrar ancho de banda cuando es necesario mover o copiar en una red de área amplia (WAN), redes de área local (LAN), o incluso una red de área de almacenamiento (SAN) grandes cantidades de datos.
Los archivos pueden duplicarse fácilmente cuando se realizan copias para enviar a otro usuario, un sistema de correo electrónico puede contener cientos o miles de copias de un mismo archivo cuando es adjuntado en mensajes. Del mismo modo, cuando un archivo se copia y luego se edita, la mayor parte de los bloques de la copia son idénticos a los de la original. La deduplicación puede ahorrar espacio al permitir que las dos copias de archivos compartan los datos que permanecen comunes a ambos.
La deduplicación puede ralentizar la escritura de archivos, o la transmisión de archivos o bloques, porque se necesita tiempo para que el procesador de almacenamiento, optimizador de WAN o dispositivo de deduplicación, analize los datos y reconozca los duplicados.
Las lecturas de estos archivos también pueden ser más lentas, ya que las piezas modificadas del archivo más unos «punteros» a los bloques comunes, se encuentran dispersos en todo el sistema de almacenamiento. Reconstruir el archivo no se llama «de-duplicación», sino «rehidratación«. La palabra nos invita a imaginar la adición de agua a los alimentos deshidratados para conseguir comida tan buena como la original.
Copias de seguridad (Backups) tienen dos aspectos fundamentales: los de archivado y los de redundancia de copia, duplicación RAID o replicación. Una copia de seguridad es una copia de los datos de producción realizada en un momento determinado en el tiempo. A diferencia de la deduplicación, el objetivo de una copia de seguridad es crear una copia separada, conservada en caso de pérdida o deterioro del original. La copia de seguridad se pueden almacenar en disco, cinta u otros medios de comunicación, y se puede mantener en línea o fuera de línea, de forma local o fuera de la oficina, lejos de la fuente original de los datos.
Hacer copias de seguridad o backups es más que realizar solo copias
Por lo general, las copias de seguridad se realizan sobre una base de tiempo regular, por lo general: diaria, semanal o mensualmente. Cuando los usuarios o administradores solicitan que se restablezcan los datos de copia de seguridad, se puede elegir entre varias copias realizadas en distintas fechas. Estas imágenes de los datos en un tiempo dado son la mejor protección contra errores, borrado o destrucción. Los usuarios pueden pedir la restauración de una copia realizada en una fecha en particular, cuando el archivo se sabe que está en buenas condiciones. El tiempo de recuperación de datos depende de la cantidad de datos que se van a restaurar, la ubicación de copia de seguridad de datos, el tipo de copia de seguridad, los medios de copia de seguridad, y el paquete de software utilizado.
Datos extractados del documento «Backup, Restore an Recovery Concepts» realizado por EVault, A Seagate Company.