SoftMaker logo

Non solo bit e byte!

Come evitare la duplicazione dei file: strategie e strumenti

Non è affatto una cattiva idea quella di conservare più copie dei file importanti. Tuttavia, si corre il rischio di avere più copie dello stesso file che non hanno ragione di esistere, con un conseguente possibile “intasamento”, dello spazio di archiviazione.

L’eliminazione di un numero eccessivo di duplicati di un file non è un’operazione così facile come sembra. Prima di procedere con l’eliminazione di una o più copie di un file è bene accertarsi che siano realmente ridondanti e non solo che condividano lo stesso nome. Per essere sicuri di eliminare solo i duplicati ridondanti, sono necessarie due cose: un valido strumento per la ricerca dei duplicati e una strategia per utilizzarlo al meglio.

Non sempre i duplicati sono inutili

Vorrei qui richiamare l’attenzione su questa affermazione: in linea generale i duplicati non solo hanno una loro ragion d’essere ma, a volte, sono anche davvero indispensabili. Windows stesso conserva più copie dei file importanti che non devono essere eliminate. Anche se la presenza del file “desktop.ini” in ogni cartella di fotografie può sembrare ridondante, in realtà la loro presenza ha un senso.

In genere, sarebbe una buona idea conservare sempre tre copie dei file che si ritengono importanti. Probabilmente avrete già sentito parlare della “Regola 3-2-1 dei Backup” dove:

3 – Conservazione di almeno tre copie dei file di dati.
2 – Archiviazione di due copie di backup su supporti diversi.
1 – Archiviazione di 1 backup off-site (ovvero all’esterno dell’ambiente fisico nel quale si lavora).

Per quanto questa regola possa apparire semplice, la sua applicazione può dimostrarsi relativamente complessa.

Supponiamo che siate un po’ come me e che abbiate cercato di attenervi alla “Regola 3-2-1 dei backup” ma anche che, con il passare del tempo, vi siate lasciati sfuggire di mano le cose e che dobbiate, quindi, rimettervi in carreggiata. In questo caso, probabilmente, vi ritroverete con molte più copie del file di quelle realmente necessarie sparse un po’ ovunque.

Io stesso, per esempio, mi sono ritrovato nella condizione di avere più cartelle duplicate di quante ne potessi gestire manualmente, sparse su più supporti interni ed esterni. Alcune provenivano da chiavette di memoria che avevo svuotato prima di prestarle a qualcuno, mentre altre erano il risultato di un tentativo disperato di recuperare dei dati da una chiavetta difettosa.

In aggiunta a tutto questo c’era anche una cartella di fotografie che avevo riorganizzato utilizzando un metodo poi abbandonato. Mi sono anche ritrovato con tre collezioni musicali, relativamente ingombranti, provenienti da vari lettori audio ormai fuori commercio.

E allora, come ci si dovrebbe comportare in questi casi?

Innanzitutto, definire degli obiettivi

Per fissare degli obiettivi specifici per l’eliminazione dei file duplicati è necessario, innanzitutto, valutare la situazione particolare nella quale ci si trova.

Se si sta esaurendo lo spazio di archiviazione, sarebbe bene concentrarsi sull’eliminazione dei soli file di grandi dimensioni: in ordine discendente, cartelle di backup, video, musica e fotografie. In genere, i documenti di lavoro sono relativamente leggeri e non dovrebbero creare problemi e anche le foto e i file audio potrebbero non valere il tempo necessario per liberare spazio sulle unità di archiviazione intasate da vecchi backup di sistema.

Se, invece, gli obiettivi devono essere più specifici, per esempio, la riorganizzazione delle cartelle di fotografie o di collezioni musicali sparse un po’ ovunque, le priorità saranno diverse: il principio non sarà più quello della ricerca di duplicati esatti, ma l’eliminazione di copie di fotografie a bassa risoluzione o di vecchie fotografie del vostro amato album che, nel frattempo, sono state convertite in un formato più moderno.

In ogni caso, prima di iniziare, è necessario aver ben chiaro in mente le priorità e la strategia da adottare Tuttavia, è necessario tenere comunque presente che si tratta di un processo che potrebbe richiedere un po’ di tempo. Non vi è nulla di più frustrante dell’abbandonare l’eliminazione dei duplicati perché è diventata un’operazione troppo noiosa, e di doverla riprendere dopo un paio di mesi, con solo un vago ricordo di quello che si voleva originariamente ottenere.

Da parte mia, ho stilato un elenco delle mie esigenze e dei miei obiettivi: per “ripulire” il mio rigido interno dovevo liberare spazio sulle mie unità esterne a partire da... A mano a mano che procedevo aggiornavo il mio elenco spuntando le voci che avevo già completato. In questo modo ho avuto l’impressione di fare dei progressi: una sensazione essenziale per continuare a essere motivato a procedere. Ah, tra l’altro, ho potuto riascoltare molta della mia musica preferita, il che ha un po’ lenito i miei sforzi.

Due parole di saggezza

Prima di iniziare a eliminare freneticamente qualsiasi cosa, accertatevi di avere a disposizione almeno tre copie di tutto. In realtà, e se necessario, prima di procedere è sufficiente avere a disposizione un’unità disco esterna vuota sulla quale fare il backup dei file da analizzare.

Il suggerimento seguente è stato dettato da alcune amare esperienze personali che mi sono capitate.

Accertatevi di aver copiato i file di dati: non limitatevi semplicemente a spostarli da un’unità disco all’altra. Prima copiateli, verificate che siano davvero identici e solo a questo punto eliminate gli originali. Ma perché mi soffermo su questo punto? Perché, un’unità disco nuova che avevo appena comprato è morta immediatamente dopo che vi avevo semplicemente trasferito alcune registrazioni audio insostituibili... Non lo farò mai più.

Vi sono alcuni strumenti Windows, come FastCopy e TeraCopy che confrontano la checksum (o somma di controllo) dei file originali con quella delle copie, dopo averle trasferite. In alternativa, per verificare l’integrità dei file copiati, si possono anche usare altri strumenti esterni come Beyond Compare o WinMerge.

Scelta degli strumenti

Gli strumenti per la ricerca dei duplicati sono disponibili per i sistemi Linux, macOS e Windows. Molti sono gratuiti, mentre altri sono vergognosamente cari. La mia raccomandazione è verificare prima se una delle opzioni gratuite soddisfa le proprie esigenze.

dupeGuru (per piattaforme Linux, macOS e Windows) è un veterano degli strumenti per la ricerca dei file duplicati: risale ormai al 2004 e svolge bene il suo lavoro. Ha tre modalità operative: “Standard”, “Music” e “Pictures”. La modalità “Standard” rileva i duplicati binari (ovvero i file che corrispondono in dimensione e contenuto). La modalità “Music” confronta le etichette dei file audio trovando, quindi, anche i brani musicali codificati in formati differenti o con bitrate (velocità di trasmissione) diverse.

Anche se la modalità “Picture” prevede un algoritmo di ricerca parziale, non contiene un visualizzatore di immagini integrato per un confronto immediato di possibili duplicati. Gli utenti Windows possono anche provare SimilarImages o VisiPics. Si tratta di due strumenti gratuiti.

Se si è alla ricerca di duplicati archiviati in cartelle o su unità disco diverse, è necessario contrassegnare uno dei percorsi di memorizzazione come “Reference”. Questa impostazione velocizza il processo di eliminazione in quanto impedisce di eliminare i file dalla cartella del percorso di riferimento. Se, invece, si vogliono cercare duplicati nella stessa directory/cartella è necessario impostare tutti i percorsi su “Normal”.

AllDup è uno strumento disponibile solo per Windows. Con un’interfaccia un po’ più moderna, prevede anche metodi di ricerca parziale per i brani musicali e le immagini. La previsualizzazione integrata delle immagini non è immediatamente accessibile: per accedervi è necessario selezionare il comando “File preview” del menu “Search Result”..

Similarity, disponibile per macOS e Windows, è particolarmente indicato per il confronto di file immagine e audio. La versione con le funzioni base è gratuita, ma quelle che fanno risparmiare più tempo – comprese l’acceleratore OpenCL e la selezione automatica del duplicato – sono disponibili solo nella versione a pagamento. La versione “Premium” viene offerta a 20 $ per il primo anno, con un successivo rinnovo annuale a 10 $.

Le recensioni di strumenti on-line gratuiti per la ricerca di duplicati citano spesso Auslogics Duplicate File Finder per Windows. L’interfaccia di questo strumento è abbastanza intuibile ma la sua operatività è particolarmente limitata in quanto è in grado di rilevare solo i duplicati binari esatti. Inoltre, l’installatore cerca di convincere gli utenti a condividere “Informazioni anonime”, a impostare l’avvio dell’app a ogni avvio di Windows e a installare due applicazioni aggiuntive. Nel complesso, il tutto è, per lo più, una sorta di manifesto pubblicitario.

dupeGuru e AllDup si comportano abbastanza bene con file di piccole dimensioni, ma i rispettivi algoritmi di confronto e la gestione della memoria possono presentare alcune difficoltà quando devono gestire file di grandi dimensioni (per es., file superiori a 1 GB). Alla fine ho preferito optare per un’alternativa a pagamento. Duplicate Cleaner ha un costo di 39 $, offre un’interfaccia semplice ed è in grado di indentificare in modo affidabile i duplicati binari, le corrispondenze con valori quasi uguali e file audio e immagine simili. Si è dimostrato essere particolarmente robusto nella gestione di file di grandi dimensioni. L’unico aspetto negativo è la localizzazione in tedesco di scarsa qualità e, pertanto, si suggerisce di attivare l’interfaccia utente in inglese.

Analisi facilitata per i formati binari

L’analisi e la ricerca di duplicati binari è relativamente semplice. Invece di dover confrontare i file bit per bit, l’applicazione calcola le checksum del contenuto dei file utilizzando un algoritmo di hash. Il calcolo di questi hash richiede un po’ di tempo: quanto maggiore è la dimensione del file, tanto più lungo sarà il tempo necessario per l’analisi.

La maggior parte degli strumenti di ricerca dei duplicati utilizzano hash MD5 o SHA1: anche se entrambi questi standard vengono considerati “spezzati” ai fini di cifratura, sono veloci e ancora abbastanza buoni per le operazioni di confronto dei file. Se non vi sono ragioni valide per preoccuparsi che qualcuno possa deliberatamente manipolare i file sul vostro disco rigido per creare falsi duplicati, l’hash MD5 si comporta correttamente.

Prima di consentire allo strumento di ricerca di duplicati di analizzare i file si consiglia di verificare il volume dei dati che dovranno essere gestiti. Per una verifica rapida, gli utenti Windows possono selezionare la cartella da analizzare con Windows Explorer, premere ALT+INVIO e, nella finestra delle proprietà, verificare la voce “Dimensioni”.

Se lo strumento per la ricerca dei duplicati dovrà gestire 500 GB di dati o più, non ha alcun senso stare comodamente seduti a osservare la barra di avanzamento dell’operazione. Vi potrete tranquillamente alzare per andarvi a prendere un caffè, tornare e decidere quante altre tazze di caffè si potranno bere prima che il software abbia calcolato i suoi hash. Potrete anche prendere in considerazione la possibilità di lasciare che lo strumento di ricerca dei duplicati faccia il suo lavoro di notte e controllare i risultati la mattina dopo.

Identificazione dei duplicati di file immagine e musicali

Se pensate che il confronto binario richieda troppo tempo, provate ad avviare un confronto di file immagine e musicali. Il confronto di immagini richiede molte più risorse di sistema rispetto a quelle necessarie per i semplici calcoli delle checksum. Si consiglia, pertanto, di iniziare con i confronti binari (i più veloci) per passare, successivamente ai confronti delle immagini, con esclusione dei metadati EXIF (ancora relativamente veloci) e lasciare per ultimi altri file con elementi simili (pausa caffè garantita).

Per confrontare i file audio si può procedere in un modo simile: con Duplicate Cleaner Pro ho iniziato con “Match exact audio data (ignore tags)” per passare poi a “Similar audio - Compare full file”: anche se queste modalità hanno richiesto un po’ di tempo, i risultati ottenuti si sono dimostrati i più affidabili. Si può anche usare la modalità “Match audio tags only” (impostare “Similar artist”, “Same title” e “Similar album”), ma i risultati dipendono totalmente dalla corretta etichettatura delle collezioni musicali.

Pulizia digitale, eliminazione delle cartelle vuote

La maggior parte degli strumenti di pulizia dei duplicati cercano di ripulirsi da soli: quando l’eliminazione dei duplicati genera sottocartelle vuote, si occuperanno autonomamente della loro eliminazione. Tuttavia, la presenza di cartelle annidate genera, spesso, degli “avanzi”.

La soluzione potrebbe essere un semplice file batch oppure l’adozione di uno strumento specifico. Io sono cresciuto con lo strumento freeware di Windows “Remove Empty Directories”, relativamente veloce, che prevede anche l’opzione per la creazione di un elenco di cartelle affidabili da non eliminare.

E voi come procedete per evitare i duplicati?

Il processo di eliminazione approfondita dei duplicati può richiedere anche giorni. In presenza di duplicati binari di grandi dimensioni, la maggior parte del tempo viene dedicata dalle operazioni di confronto stesse. Quando si cercano immagini duplicate, una gran parte del tempo viene dedicato al controllo attento per verificare se sono stati rilevati correttamente i duplicati al di sotto del 90%. Con i file audio, i confronti possono richiedere molto tempo, ma il processo di eliminazione à abbastanza semplice.

La mia odissea personale di de-duplicazione ha richiesto più tempo di quello che mi aspettavo. Alla fine, ho riempito due unità vuote da 4 TB. Durante le mie operazioni di pulizia digitale ho anche scoperto che tre unità disco esterne cominciavano a dare dei problemi. Se non me fossi accorto in tempo, avrei probabilmente perso alcuni dati importanti.

Condividete i vostri commenti/considerazioni sulla vostra gestione dei file duplicati. Adottate strategie diverse che hanno funzionato bene per voi? Quali strumenti usate?

Grazie.

Il prodotto è stato aggiunto al carrello.