Em computação, a deduplicação ou desduplicação de dados é uma técnica para eliminar cópias duplicadas de dados repetidos. Um termo relacionado e um tanto sinônimo é o armazenamento de instância única. Essa técnica é usada para melhorar a utilização do armazenamento e também pode ser aplicada a transferências de dados de rede para reduzir o número de bytes que devem ser enviados. No processo de desduplicação, pedaços exclusivos de dados, ou padrões de bytes, são identificados e armazenados durante um processo de análise. Conforme a análise continua, outros pedaços são comparados à cópia armazenada e sempre que ocorre uma correspondência, o pedaço redundante é substituído por uma pequena referência que aponta para o pdeaço armazenado. Dado que o mesmo padrão de byte pode ocorrer dezenas, centenas ou mesmo milhares de vezes (a frequência de correspondência depende do tamanho do pedaço), a quantidade de dados que deve ser armazenada ou transferida pode ser bastante reduzida.[1][2]
A desduplicação é diferente dos algoritmos de compactação de dados, como LZ77 e LZ78. Enquanto os algoritmos de compactação identificam dados redundantes dentro de arquivos individuais e codificam esses dados redundantes com mais eficiência, a intenção da desduplicação é inspecionar grandes volumes de dados e identificar grandes seções - como arquivos inteiros ou grandes seções de arquivos - que são idênticas e substituí-las com uma cópia compartilhada. Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de arquivo de 1 MB (megabyte). Cada vez que é feito backup da plataforma de e-mail, todas as 100 instâncias do anexo são salvas, exigindo 100 MB de espaço de armazenamento. Com a desduplicação de dados, apenas uma instância do anexo é realmente armazenada; as instâncias subsequentes são referenciadas de volta à cópia salva para taxa de desduplicação de cerca de 100 para 1. A desduplicação costuma ser combinada com a compactação de dados para economia de armazenamento adicional: a desduplicação é usada primeiro para eliminar grandes blocos de dados repetitivos e a compactação é então usada para eficientemente codificar cada um dos blocos armazenados.[3]
Referências