SoftMaker logo

Nie tylko o bajtach

Rozwiązanie problemu zduplikowanych plików: strategie i narzędzia

Utrzymywanie wielu kopii ważnych plików wcale nie jest złym pomysłem. Taki zwyczaj może jednak doprowadzić do stanu, gdy kopii jest znacznie więcej niż faktycznie potrzeba, zajmują zbyt dużo miejsca lub po prostu przeszkadzają.

Pozbycie się nadmiaru duplikatów wcale jednak nie jest takie łatwe, jak może się wydawać. Przed usunięciem plików trzeba się upewnić, że naprawdę są nadmiarowe, a nie tylko mają taką samą nazwę. Aby bezpiecznie usunąć kopie plików, potrzeba dwóch rzeczy: dobrego narzędzia do znajdowania duplikatów i właściwej strategii korzystania z niego.

Nie wszystkie duplikaty są złe

Najpierw chcę krótko dowieść, że duplikaty są, ogólnie mówiąc, nie tylko dobre, ale wręcz niezbędne. System Windows utrzymuje wiele kopii niektórych ważnych plików, których użytkownik nie powinien ruszać. Choćby plik desktop.ini w każdym folderze ze zdjęciami wydawał się zupełnie zbędny, tak naprawdę jest tam celowo.

Na ogół dobrym pomysłem jest zachowanie trzech kopii każdego ważnego pliku. Pewnie wiele osób słyszało o zasadzie kopii zapasowych 3-2-1 — jest dość prosta:

3 — zachowaj co najmniej trzy kopie swoich danych,
2 — przechowuj dwie kopie zapasowe na innych nośnikach pamięci, i
1 — przechowuj jedną kopię zapasową w innym miejscu, tzn. z dala od pozostałych kopii.

Choć zasada wydaje się prosta i oczywista, jej zastosowanie może być kłopotliwe.

Załóżmy, że inni użytkownicy są podobni do mnie — próbowali stosować tę zasadę, ale nie zawsze się to udawało, a teraz chcą wrócić do dobrego zwyczaju. Prawdopodobnie sytuacja wygląda tak, że kopii jest znacznie więcej niż faktycznie potrzeba, w dodatku znajdują się wszędzie.

W moim przypadku nagle okazało się, że mam więcej folderów z kopiami zapasowymi niż jestem w stanie przeszukać ręcznie. Były rozsiane na wielu dyskach, niektóre wewnętrznych, inne zewnętrznych. Część duplikatów pochodziła z czasu, gdy opróżniałem pamięci USB przed pożyczeniem ich znajomym, inne były efektem rozpaczliwych prób ocalenia danych z uszkodzonego dysku.

Był też pradawny folder kopii zapasowych zdjęć sklasyfikowanych w sposób, który już zarzuciłem. Odgrzebałem nawet trzy nieporęczne kolekcje muzyki uratowane z różnych przenośnych odtwarzaczy audio, zanim trafiły do elektrośmieci.

Co więc należy zrobić?

Określenie celów

Konkretne cele związane z pozbyciem się duplikatów zależą od danej sytuacji.

Jeśli zaczyna brakować miejsca na przechowywanie danych, trzeba się skoncentrować na największych plikach: kontenerach kopii zapasowych, filmach, muzyce i zdjęciach — od tych największych począwszy. Dokumenty pakietów biurowych są zwykle zbyt małe, aby miały większe znaczenie. Czasami też szkoda czasu na zajęcie się zdjęciami i plikami audio, jeśli dyski zewnętrzne są zapchane starymi kopiami zapasowymi systemu.

Jeśli cel jest bardziej sprecyzowany, na przykład posprzątanie folderów ze zdjęciami lub uporządkowanie kolekcji muzycznej, priorytety będą inne: nie tylko wyszukanie dokładnych duplikatów, ale również kopii zdjęć o mniejszej rozdzielczości oraz starszych, przegranych w niskiej jakości kopii ulubionych albumów, które od tego czasu już udało się zakodować w nowocześniejszym formacie.

W każdym przypadku priorytety należy jasno określić przed rozpoczęciem usuwania. Trzeba bowiem pamiętać, że to może chwilę zająć. Jest kilka rzeczy bardziej frustrujących niż przerwanie szalonego usuwania duplikatów, ponieważ okazało się zbyt nużące — choćby powrót do tego zadania po kilku miesiącach, z zaledwie przebłyskami pamięci, co było pierwotnym celem.

Ja sam ostatecznie przygotowałem listę konkretnych potrzeb i celów: aby posprzątać na wewnętrznym dysku twardym, muszę zrobić miejsce na dyskach zewnętrznych, zaczynając od... Później w miarę postępów aktualizowałem listę i zaznaczałem elementy, którymi już się zająłem. To dało mi poczucie czynienia postępów, które jest podstawą zachowania motywacji. A żeby osłodzić sobie tę harówkę, przesłuchałem dużo ulubionej muzyki.

Kilka mądrych słów

Przed rozpoczęciem usuwania czegokolwiek upewnij się, że faktycznie masz trzy kopie. Naprawdę. Zanim zrobisz cokolwiek, w razie potrzeby skopiuj na czysty dysk zewnętrzny dane, które chcesz przeanalizować.

Ta porada wynika z bolesnych doświadczeń osobistych.

Skopiuj dane: nigdy nie przenoś plików z jednego dysku na drugi. Zawsze najpierw skopiuj, potem sprawdź, czy skopiowane pliki są rzeczywiście identyczne, a następnie usuń oryginały. Dlaczego tak to podkreślam? Cóż... mój zupełnie nowy dysk zewnętrzny zepsuł się od razu po tym, gdy przeniosłem na niego pewne niezastąpione nagrania audio... Nigdy więcej już tak nie zrobiłem.

Narzędzia systemu Windows, takie jak FastCopyTeraCopy, porównają sumy kontrolne plików oryginalnych oraz ich kopii. Można też sprawdzić skopiowane pliki przy użyciu narzędzi zewnętrznych, na przykład Beyond Compare lub WinMerge.

Wybór narzędzi

Narzędzia do znajdowania duplikatów są dostępne do systemów Linux, macOS i Windows. Wiele z nich jest bezpłatnych, a niektóre mają szokująco zawyżone ceny. Polecam więc, aby najpierw sprawdzić, czy narzędzia bezpłatne okażą się wystarczające.

dupeGuru (Linux, macOS, Windows) to weteran wśród bezpłatnych narzędzi do znajdowania duplikatów: jego historia sięga aż 2004 roku, i program adekwatnie też wygląda. Ma trzy tryby działania: standardowy, muzyki i obrazów. „Tryb standardowy” znajduje duplikaty plików binarnych, tzn. pliki zgodne z innymi pod względem rozmiaru i zawartości. „Tryb muzyki“ porównuje tagi plików audio, więc znajduje też zduplikowane utwory zakodowane w innych formatach lub z różnymi przepływnościami.

Choć „tryb obrazów” obejmuje algorytm wyszukiwania rozmytego, nie ma zintegrowanej przeglądarki obrazów, która umożliwiłaby natychmiastowe porównanie potencjalnych duplikatów. Użytkownicy systemu Windows mogą zamiast niego wybrać SimilarImages lub VisiPics. Oba narzędzia są bezpłatne.

Wyszukując duplikaty w różnych folderach lub na różnych dyskach, trzeba oznaczyć jedną ze ścieżek jako „reference” (referencyjna). To przyspieszy proces usuwania, ponieważ aplikacja uniemożliwi skasowanie plików ze ścieżki referencyjnej. Jeśli natomiast wyszukiwanie odbywa się w ramach tego samego katalogu, wszystkie ścieżki należy zachować jako „normal” (zwykła).

Narzędzie AllDup jest dostępne tylko do systemu Windows. Ono również oferuje metody wyszukiwania rozmytego plików muzycznych i obrazów, ale ma nieco nowocześniejszy interfejs. Wewnętrzny podgląd obrazów jest trochę ukryty — aby go otworzyć, trzeba wybrać pozycję „File preview” (Podgląd pliku) z menu Search Result (Wynik wyszukiwania).

Narzędzie Similarity specjalizuje się w porównywaniu obrazów i plików audio, a jest dostępne do systemów macOS oraz Windows. Podstawowe funkcje są bezpłatne, ale większość funkcji umożliwiających zaoszczędzenie czasu (w tym przyspieszenie OpenCL i automatyczny wybór duplikatów) jest dostępnych tylko dla użytkowników wersji płatnej. Wersja premium kosztuje 20 dolarów za pierwszy rok, a odnowienie 10 dolarów.

W internetowych porównaniach darmowych narzędzi do znajdowania duplikatów często pojawia się narzędzie przeznaczone tylko do systemu Windows Auslogics Duplicate File Finder. Interfejs wygląda całkiem przyjaźnie, ale funkcje są mocno ograniczone: Auslogics znajdzie tylko dokładne duplikaty plików binarnych. Ponadto instalator stara się nakłonić użytkowników do udostępniania „anonimowych informacji”, ustawienia włączania aplikacji przy każdym uruchomieniu systemu Windows i zainstalowania dwóch dodatkowych aplikacji. Ogólnie rzecz biorąc, całość to raczej tablica reklamowa.

dupeGuru i AllDup działają przyzwoicie w przypadku mniejszych plików, ale ich algorytmy porównywania i mechanizmy zarządzania pamięcią mogą nie dać sobie rady z dużymi plikami, na przykład większymi niż 1 GB. W końcu pora na alternatywy komercyjne. Duplicate Cleaner, który wymaga jednorazowego wydatku 39 dolarów, ma prosty interfejs, niezawodnie identyfikuje duplikaty plików binarnych, dokładnie dopasowane oraz podobne pliki audio i obrazów. Sprawdzono też, że dobrze sobie radzi z obsługą dużych plików. Jedynym minusem jest słaba jakość lokalizacji (zwłaszcza niemieckiej), więc lepiej zmienić język interfejsu użytkownika na angielski.

Łatwe pozbywanie się duplikatów plików binarnych

Znalezienie duplikatów plików binarnych jest stosunkowo proste. Zamiast porównywania każdego pliku bit po bicie aplikacja oblicza sumy kontrolne zawartości plików przy użyciu algorytmu skrótu. Obliczenie skrótów zajmuje trochę czasu — im większy jest plik, tym dłużej to trwa.

Większość narzędzi do znajdowania duplikatów używa skrótów MD5 lub SHA1. Choć oba z tych standardów uznano już za zbyt słabe do celów kryptograficznych, są wystarczająco szybkie i dobre do porównywania plików. O ile nie ma ryzyka, że ktoś celowo majstrował przy plikach na dysku twardym, aby utworzyć fałszywe duplikaty, skrót MD5 powinien wystarczyć.

Przed rozpoczęciem analizy plików przy użyciu narzędzia do znajdowania duplikatów warto sprawdzić, ile danych będzie musiało ono obsłużyć. Użytkownicy systemu Windows mogą to szybko sprawdzić w Eksploratorze Windows (Eksploratorze plików). Wystarczy wybrać folder do analizy, nacisnąć klawisze Alt+Return (Alt+Enter) i sprawdzić pozycję „Rozmiar” w oknie dialogowym właściwości.

Jeśli narzędzie do znajdowania duplikatów musi przetworzyć 500 GB lub więcej danych, nie ma sensu siedzenie przy komputerze i patrzenie się na pasek postępu. Lepiej zrobić sobie kawę, wrócić za chwilę i oszacować, ile jeszcze takich przerw na kawę minie, zanim oprogramowanie obliczy swoje skróty. Można nawet zostawić włączone narzędzie na noc, a wyniki znajdowania duplikatów sprawdzić rano.

Identyfikowanie duplikatów plików muzycznych i obrazów

Jeśli ktokolwiek uważa, że porównywanie plików binarnych jest czasochłonne, to co stwierdzi, gdy zacznie porównywać pliki obrazów lub muzyczne... Porównanie obrazów wymaga znacznie większych zasobów obliczeniowych niż proste obliczenia sum kontrolnych. Dlatego właśnie należy zacząć raczej od porównania plików binarnych (najszybsze), następnie porównać pliki obrazów — ale z wykluczeniem metadanych EXIF (wciąż dość szybkie), a na koniec zająć się podobieństwami (będzie czas na przerwę na kawę).

Porównanie plików audio można przeprowadzić w podobny sposób. W programie Duplicate Cleaner Pro najpierw wybieram opcję „Match exact audio data (ignore tags)” (Dopasuj dokładnie dane audio, ignoruj tagi), a następnie opcję „Similar audio - Compare full file” (Podobne audio — porównaj cały plik). Te tryby są czasochłonne, ale zapewniają najbardziej wiarygodne wyniki. Opcja „Match audio tags only” (Dopasuj tylko tagi audio) też może się sprawdzić (z ustawieniem „Similar artist” [Podobny wykonawca], „Same title” [Podobny tytuł] i „Similar album” [Podobny album]), ale wyniki zależą całkowicie od tego, jak dobrze są otagowane biblioteki muzyczne.

Cyfrowe sprzątanie: eliminacja pustych folderów

Większość narzędzi do usuwania duplikatów próbuje „posprzątać” po sobie: jeśli po usunięciu duplikatów zostają puste podfoldery, narzędzia oferują ich usuniecie. Jednak po zagnieżdżonych folderach często zostają jakieś resztki.

Rozwiązanie stanowi prosty plik wsadowy lub specjalne narzędzie. Polubiłem bezpłatne narzędzie do systemu Windows „Remove Empty Directories”, które działa szybko i umożliwia utworzenie listy folderów do zachowania.

Działania prewencyjne

Dokładne pozbycie się duplikatów może zająć nawet kilka dni. W przypadku duplikatów dużych plików binarnych najbardziej czasochłonne jest samo ich porównanie. Przy wyszukiwaniu zbędnych obrazów mnóstwo czasu zajmuje sprawdzenie, czy duplikaty przekraczające próg 90% zgodności faktycznie zostały wykryte prawidłowo. Porównanie plików audio może zająć sporo czasu, ale za to proces pozbycia się duplikatów jest dość prosty.

Moja osobista odyseja deduplikacji zajęła znacznie więcej czasu niż się spodziewałem. Zakończyła się dwoma pustymi dyskami o pojemności 4 TB. W trakcie tego cyfrowego sprzątania odkryłem też, że trzy dyski zewnętrzne zaczynają się psuć. Gdybym tego nie wykrył na czas, prawdopodobnie straciłbym ważne dane.

Proszę o komentarze z opisem sposobów radzenia sobie z duplikatami plików. Czy ktoś ma inne sprawdzone strategie? Z jakich narzędzi korzystacie?

Dodaj komentarz

Dziękujemy.

Produkt został dodany do koszyka.