Question Existe-t-il un programme de compression ou d’archivage pour Windows qui effectue également la déduplication? [fermé]


Je recherche un programme d'archivage capable d'effectuer une déduplication (déduplication) sur les fichiers archivés. Lors du déballage de l'archive, le logiciel remettrait tous les fichiers supprimés au cours du processus de compression.

Jusqu'à présent, j'ai trouvé:

Toute personne au courant d'autres?

Ce serait probablement un ajout génial à 7-zip.


11
2018-05-20 20:37


origine




Réponses:


Presque tous les archiveurs modernes font exactement cela, la seule différence est qu'ils se réfèrent à cela comme une archive "solide", car tous les fichiers sont concaténés en un seul flux avant d'être envoyés à l'algorithme de compression. Ceci est différent de la compression zip standard qui compresse chaque fichier un par un et ajoute chaque fichier compressé à l'archive.

7-zip, de par sa nature même, parvient effectivement à la déduplication. 7-Zip, par exemple, recherchera des fichiers, les classera selon des types de fichiers et des noms de fichiers similaires, et deux fichiers du même type et des mêmes données seront placés côte à côte dans le flux allant aux algorithmes du compresseur. Le compresseur verra alors beaucoup de données qu'il a vues très récemment et ces deux fichiers verront une augmentation considérable de l'efficacité de la compression par rapport à la compression des fichiers un par un.

Linux a connu un comportement similaire depuis longtemps à cause de la prédominance de son format ".tgz" (ou ".tar.gz" pour l'utiliser sous sa forme complète) car le tar fusionne simplement tous les fichiers en un seul flux (sans tri et regroupement de fichiers) puis compression avec gzip. Ce qui manque, c’est le tri que fait 7-zip, ce qui peut légèrement diminuer l’efficacité, mais reste bien meilleur que de simplement balayer beaucoup de choses. comprimé individuellement fichiers ensemble comme le fait le zip.


12
2018-05-20 21:04



Apprendre quelque chose de nouveau chaque jour. Je n'ai pas réalisé que le zip compressait chaque fichier séparément, mais après avoir effectué quelques tests sur mon ordinateur, je me suis rendu compte que vous étiez effectivement correct. très intéressant, merci! - CenterOrbit
7ip fait un bon travail de déduplication, mais il est également conçu pour compresser efficacement les données non dupliquées, et utilise beaucoup de CPU et de mémoire pour y parvenir, ce qui en fait un moyen très inefficace de dédupliquer les données. Si vous compressez deux fichiers de 100 Mo identiques, il sera très difficile d'essayer de compresser le premier fichier efficacement, et alors seulement (si la taille du dictionnaire est suffisamment grande), compressez le second fichier en double du premier. - mwfearnley
Ne gipez pas avec .tar.gz Compresse uniquement des blocs relativement petits (comme 900 Ko) à la fois complètement indépendants les uns des autres et ne permet donc pas de dédupliquer deux fichiers volumineux mais identiques (par exemple, quelques images de 4 Mo)? - binki
Par exemple, 7z était capable de dédoubler des fichiers volumineux mais gzip n'était pas: gist.github.com/binki/4cf98fb4f1f4aa98ee4a00edaf6048fa - binki


Il est inutile d'utiliser la déduplication avec un processus de compression. La plupart des algorithmes de compression créent ce qu'on appelle un «dictionnaire» qui recherchera les bits de données les plus courants ou réutilisés. à partir de là, il suffira de référencer l'entrée du dictionnaire au lieu d'écrire tout le mot "mot". De cette manière, la plupart des processus de compression suppriment déjà les données redondantes ou dupliquées de tous les fichiers.

Par exemple, si vous prenez un fichier de 1 Mo et que vous le copiez 100 fois avec un nom différent à chaque fois (totalisant 100 Mo d’espace disque), vous le compressez dans un fichier zip ou 7zip. En effet, toutes vos données ont été placées dans une entrée de dictionnaire et référencées 100 fois, ce qui prend très peu de place.

Ceci est une explication très simple de ce qui se passe, mais le point est toujours bien transmis.


4
2018-05-20 20:52



Comme la taille du dictionnaire est très limitée pour la plupart des archives de compression, cela n'est pas valable pour une utilisation quotidienne. Essayez ceci avec des fichiers de 50 Mo et votre taille compressée doublera avec deux fichiers d’entrée identiques. - Chaos_99
Les fichiers Zip, contrairement aux fichiers 7zip, ne prennent pas en charge la déduplication dans les fichiers. Les fichiers Zip compressent et stockent chaque fichier séparément, de sorte que les fichiers en double seront simplement stockés plusieurs fois dans les archives. - mwfearnley
Bien que 7zip prenne en charge la déduplication à travers les fichiers, il est conçu pour rechercher et compresser des correspondances beaucoup plus courtes. Ses algorithmes sont beaucoup plus lents et nécessitent beaucoup de mémoire que ce qui est potentiellement possible pour quelque chose conçu pour trouver une duplication de données à grande échelle. - mwfearnley


7-Zip, zip, gzip et tous les autres archiveurs ne détectent pas les zones identiques éloignées les unes des autres, telles que quelques mégaoctets ou plus, dans le même fichier ou placées à des endroits différents dans des fichiers différents.

Donc, non, les archiveurs normaux n'agissent pas aussi bien qu'exdupe et autres, dans certaines situations. Vous pouvez le voir si vous compressez des machines virtuelles ou d'autres choses.


4
2018-05-20 23:20



C'est correct. Dès que le volume de données unique dépasse la taille du dictionnaire des compresseurs, la compression diminue. exdupe offre des performances supérieures pour les gros volumes de données. - usr


Je ne connais pas de programme de déduplication capable d'effectuer une déduplication (déduplication) sur les fichiers en cours d'archivage.

je connais WinPure qui est le meilleur logiciel de déduplication qui permet de dédupliquer les données facilement et je pense que cela peut être une excellente solution pour votre problème de déduplication.


-1
2018-04-09 10:03