Au-delà des octets
Se débarrasser des fichiers en double : stratégies et outils

Ce n’est jamais une mauvaise idée de conserver plusieurs copies de ses fichiers importants. Cependant, vous pouvez aussi vous retrouver avec bien plus de copies que vous n’en avez réellement besoin – ce qui occupe inutilement de l’espace disque ou peut occasionner une certaine confusion.
L’élimination d’un trop grand nombre de fichiers dupliqués n’est pas si simple qu’on pourrait l’imaginer. Avant d’effacer des fichiers, vous devez vous assurer qu’il s’agit vraiment de copies conformes et non simplement de fichiers portant un même nom. Pour supprimer sans risque des fichiers en double, il vous faut deux choses : un bon logiciel de recherche de doublons, et une méthode qui permette de l’utiliser de la façon la plus efficace.
Les doublons ne sont pas tous inutiles
J’aimerais tout d’abord souligner que, de manière générale, les fichiers en double ne sont pas simplement utiles : ils sont indispensables. Windows lui-même conserve de nombreuses copies de certains fichiers essentiels, auxquelles vous ne devriez pas toucher. Bien que la présence d’un fichier desktop.ini dans chaque dossier de photos puisse paraître superflue, ce type de fichier a un rôle précis à jouer.
On estime généralement que le fait de garder trois exemplaires de chaque fichier importants est un bon compromis. Vous avez peut-être déjà entendu parler de la règle de sauvegarde 3-2-1 – elle est relativement simple :
3 - Conserver vos données au minimum en trois exemplaires,
2 - garder deux copies de sauvegarde sur des supports différents, et
1 - conserver un fichier de sauvegarde à un autre endroit, c.-à-d. loin des autres sauvegardes.
Respecter cette règle peut s’avérer plus difficile qu’il n’y paraît.
Imaginons que vous soyez un peu comme moi et que vous avez essayé de respecter cette règle de sauvegarde 3-2-1, puis que vous avez été négligent(e) pendant une période plus ou moins longue, et qu’à présent vous essayez de reprendre les choses en main. Cela signifie probablement que vous avez bien plus de copies que vous n’en avez réellement besoin, et que celles-ci se sont éparpillées.
Il m’est arrivé de me retrouver, pour un fichier, avec un nombre de doublons potentiels si important qu’il m’était impossible de les trier manuellement. Ces derniers étaient disséminés sur divers lecteurs, certains internes, d’autres externes. Certains étaient des fichiers en double provenant de clés USB que j’avais effacées avant de les prêter à des amis, d’autres résultaient d’une tentative désespérée de récupérer les données d’un disque défaillant.
Il y avait aussi un ancien dossier de sauvegarde de photos qui correspondait à une classification que j’avais entre-temps abandonnée. J’ai en outre retrouvé trois musicothèques plutôt volumineuses copiées depuis différents lecteurs audio portables avant que ces derniers soient mis au placard.
Alors, que devriez-vous faire... ?
Définissez vos objectifs
Le cas dans lequel vous vous trouvez déterminera vos objectifs propres dans l’élimination des doublons.
Si le problème est que vous commencez à manquer de place, il faudra vous concentrer spécialement sur les gros fichiers : fichiers de sauvegarde, vidéos, fichiers audio et photos – par ordre d’importance décroissante. Les documents de logiciels bureautiques sont en général trop petits pour avoir de l’importance dans le cas évoqué ; et il se peut que même les photos et fichiers audio ne méritent pas de vous y attarder, si vos disque externes sont remplis de vieilles sauvegardes système.
Si vos intentions sont plus spécifiques, par exemple, le « dépoussiérage » de vos dossiers de photos ou de votre collection musicale qui prend des proportions considérables, vos priorités ne seront pas les mêmes : vous ne cherchez pas seulement les doublons exacts, mais aussi les copies de photos dont la résolution a été réduite, et les anciens rips de qualité inférieure de vos albums préférés que vous avez depuis réencodés sous un format plus moderne.
Dans tous les cas, définissez bien vos priorités avant de vous lancer. Cela peut s’avérer assez long, alors gérez bien votre temps. Qu’y a-t-il de plus frustrant que de devoir abandonner le grand nettoyage de vos doublons parce que la tâche s’avère trop fastidieuse, pour s’y remettre quelques mois plus tard avec seulement quelques vagues souvenirs de ce que vous aviez commencé à faire ?
J’en suis finalement venu à dresser une liste de mes besoins propres et de mes objectifs : pour faire le ménage sur mon disque dur interne, je dois en premier lieu faire de la place sur mes lecteurs externes... À mesure que je progressais, je mettais ma liste à jour et barrais les points accomplis. Je pouvais ainsi constater que j’avançais, ce qui est essentiel pour rester motivé. À côté de ça, j’ai en même temps énormément écouté la musique que j’aime. Cela m’a permis de rendre la corvée moins pénible !
Quelques sages paroles
Avant de commencer à effacer quoi que ce soit, assurez-vous d’avoir trois exemplaires de chaque fichier. J’insiste. Au besoin, n’hésitez pas à vous procurer un disque externe neuf pour sauvegarder les données que vous prévoyez d’analyser, avant d’aller plus loin.
Les conseils qui suivent sont issus d’expériences personnelles plus ou moins amères.
Vérifiez bien que vous ne faites que copier vos données : ne déplacez jamais vos fichiers d’un support de stockage à un autre. Faites toujours une copie dans un premier temps, contrôlez que les fichiers copiés sont bien identiques, puis effacez les originaux. Pourquoi ce point est-il important à mes yeux ? Eh bien, il m’est arrivé une fois de déplacer des enregistrements audio irremplaçables sur un disque dur externe flambant neuf qui a rendu l’âme juste après... Plus jamais je ne procéderai de cette façon.
Les outils pour Windows tels que FastCopy et TeraCopy vont comparer les sommes de contrôle (checksums en anglais) des éléments originaux et des copies après le transfert. Vous pouvez également vérifier les fichiers copiés à l’aide d’un outil externe tel que Beyond Compare ou WinMerge.
Choisissez vos outils
Il existe des logiciels de recherche de doublons pour Linux, macOS et Windows. Beaucoup d’entre eux sont gratuits, et certains sont exagérément coûteux. Je vous inciterais à d’abord tester les solutions gratuites pour voir si elles correspondent à vos besoins.
dupeGuru (Linux, macOS, Windows) fait figure de vétéran parmi les logiciels de recherche de doublons : il existe en effet depuis 2004 – et il demeure digne d’intérêt. Il offre trois modes de fonctionnement : standard, musique et images. Le « mode standard » trouve les doublons binaires, c.-à-d. les fichiers dont la taille et le contenu sont identiques. Le « mode musique » compare les métadonnées des fichiers audio, ce qui a l’avantage de permettre une reconnaissance des morceaux de musique encodés sous des formats différents ou avec différents bitrates.
Même si on apprécie l’algorithme de recherche floue du « mode image », il manque à ce dernier une visionneuse d’image intégrée, qui permettrait de comparer directement les doublons potentiels. Les utilisateurs de Windows lui préféreront peut-être SimilarImages ou VisiPics. Ces deux outils sont gratuits.
Si vous recherchez des fichiers en double dans des dossiers ou des lecteurs différents, pensez à marquer l’un de vos chemins d’accès en tant que « référence ». Cela permettra d’accélérer le processus d’élimination, dans la mesure où l’application vous empêchera de supprimer des fichiers associés au chemin d’accès de référence. Si toutefois vous recherchez des doublons dans un même dossier, il vous faudra laisser tous les chemins en tant que « normaux ».
AllDup n’est disponible que pour Windows. Il propose aussi des méthodes de recherche approximative pour la musique et les images, et l’interface est un peu plus moderne. Sa fonction de prévisualisation d’image est quelque peu cachée : vous devez choisir « Prévisualisation de fichier » dans le menu des résultats de recherche pour l’ouvrir.
Similarity est spécialisé dans les comparaisons d’images et de fichiers audio, et il existe pour macOS et Windows. La version offrant les fonctions de base est gratuite, mais la plupart des fonctionnalités faisant gagner du temps (notamment l’accélération OpenCL et la sélection de doublon automatique) sont réservées à la version payante. La version complète coûte 20 $ pour la première année, et 10 $ les années d’après.
Les comparaisons que l’on trouve sur internet concernant les applications gratuites de recherche de doublons mentionnent souvent Auslogics Duplicate File Finder (disponible exclusivement pour Windows). L’interface de cet utilitaire semble plutôt conviviale, mais son utilité est considérablement limitée : l’outil d’Auslogics ne détectera que les doublons strictement identiques du point de vue binaire. Par ailleurs, l’assistant d’installation incite les utilisateurs à communiquer des « informations anonymes », paramètre l’application de façon qu’elle s’exécute à chaque lancement de Windows et installe deux applications supplémentaires. Dans l’ensemble, cela ressemble fortement à un panneau publicitaire.
dupeGuru et AllDup conviennent aux petits fichiers, mais leurs algorithmes de comparaison et leur gestion de la mémoire peuvent entraîner des défaillances avec les fichiers volumineux, c.-à-d. tout ce qui dépasse 1 Go. J’ai fini par choisir une alternative payante. Duplicate Cleaner coûte 39 $ (achat définitif), offre une interface claire et identifiera de manière fiable les doublons binaires, les fichiers semblables et les fichiers audio et image similaires. Il a révélé une excellente aptitude à gérer les fichiers volumineux. Le seul inconvénient est que sa traduction en allemand est mauvaise – nous vous conseillons d’utiliser l’interface utilisateur en anglais.
Triez aisément les doublons binaires
La détection des doublons binaires est relativement simple. Au lieu de comparer chaque fichier bit par bit, l’application calcule les sommes de contrôle de leur contenu par le biais d’un algorithme de hachage. Le calcul de ces signatures prend du temps, et plus le fichier a une taille importante, plus c’est long.
La plupart des logiciels de recherche de doublons utilisent des signatures MD5 ou SHA1 : même si ces normes sont considérées comme dépassées pour une utilisation en cryptographie, elles permettent une grande rapidité et demeurent une solution tout à fait acceptable pour la comparaison de fichiers. À moins que vous ayez des raisons de penser que quelqu’un pourrait intentionnellement modifier les fichiers présents sur votre disque dur pour créer de faux doublons, le MD5 est une option valable.
Avant de laisser un logiciel de recherche de doublons analyser vos fichiers, il peut être intéressant de vérifier le volume de données que vous allez lui faire ingérer. Pour faire une vérification rapide, les utilisateurs de Windows peuvent sélectionner le dossier à analyser dans l’explorateur Windows, appuyer sur Alt+Entrée et regarder la ligne « Size » (Taille) de la boîte de dialogue des propriétés.
S’il s’avère que votre application de recherche de doublons s’apprête à traiter 500 Go de données ou plus, inutile de rester devant votre écran à surveiller la barre de progression. Allez prendre un café, revenez et estimez combien de pauses café le logiciel nécessitera pour calculer ses hachages. Vous aurez même peut-être intérêt à laisser l’application travailler la nuit et vérifier les résultats le lendemain matin.
Repérez les morceaux de musique et images en double
Vous trouvez que la comparaison binaire est longue ? Attendez de voir ce qu’il en est pour les images et la musique. La comparaison d’images requiert bien plus de puissance de calcul que le simple calcul de sommes de contrôle. C’est pourquoi il peut être préférable de commencer avec une comparaison binaire (le plus rapide), puis de tenter une comparaison des images en excluant les métadonnées EXIF (toujours relativement rapide), et enfin de procéder aux déterminations des analogies (prévoyez un certain nombre de pauses café).
La comparaison des fichiers audio peut se faire de façon similaire : dans Duplicate Cleaner Pro, je commence avec l’option « Match exact audio data (ignore tags) » (Déterminer les correspondances audio exactes (ignorer les métadonnées)), et dans un deuxième temps je lance une analyse suivant la méthode « Similar audio - Compare full file » (Données audio similaires - Comparer l’intégralité du fichier) – même si ces modes opératoires prennent du temps, ce sont ceux qui procurent les résultats les plus fiables. L’option « Match audio tags only » (Déterminer uniquement les correspondances entre métadonnées audio) peut également être efficace (choisir « Similar Artist » (Artiste similaire), « Same title » (Même titre) et « Similar album » (Album similaire)), mais les résultats dépendent entièrement des métadonnées existantes dans votre musicothèque.
Ménage numérique : supprimez les dossiers vides
La majorité des logiciels de nettoyage de doublons font en sorte d’effectuer un nettoyage après leur utilisation : si la suppression des fichiers en double a occasionné la présence de sous-répertoires vides, ils proposent d’effacer ces derniers également. Cependant, il reste souvent des traces des dossiers imbriqués.
La solution consiste à utiliser un simple fichier batch ou un utilitaire spécial. Je suis devenu un adepte du freeware pour Windows « Remove Empty Directories » qui est rapide et offre la possibilité de créer une liste blanche des dossiers que vous souhaiteriez conserver.
Que faire pour éviter les fichiers en double
Vous débarrasser au mieux de vos doublons peut nécessiter plusieurs jours. Avec des doublons binaires volumineux, ce sont les comparaisons elles-mêmes qui nécessitent le plus de temps. En ce qui concerne la recherche d’images redondantes, ce qui prend beaucoup de temps, c’est la vérification supplémentaire relative à la détection des doublons présentant une similarité inférieure au seuil de 90 %. Pour les fichiers audio, les comparaisons peuvent réclamer beaucoup de temps, mais le processus d’élimination est relativement direct.
L’odyssée personnelle que j’ai vécue pour éliminer mes doublons a nécessité énormément plus de temps que ce que j’avais envisagé. Je me suis retrouvé avec deux disques de 4 To vides. En réalisant mon ménage numérique, j’ai en outre découvert que trois de mes disques externes montraient des signes de faiblesse. Si je ne m’étais pas rendu compte de cela à temps, j’aurais probablement perdu des données importantes.
N’hésitez pas à me faire part, dans la section commentaires, de la manière dont vous traitez vos doublons. Appliquez-vous d’autres méthodes qui fonctionnent bien pour vous ? Quels outils utilisez-vous ?