SoftMaker logo

Байты и не только

Удаление файлов-дубликатов: стратегии и инструменты

Хранить несколько копий важных файлов не помешает никогда. Однако это может привести к тому, что у вас окажется гораздо больше копий, чем требуется. А копии занимают нужное место на диске или попросту затрудняют нахождение файлов.

Избавиться от лишних копий не так просто, как могло бы показаться. Перед удалением файлов неплохо убедиться в том, что они действительно копии, а не просто имеют одно и то же имя. Чтобы удалить копии без последствий, вам понадобится хороший инструмент для поиска дубликатов и стратегия, которая позволит эффективно использовать его.

Не все копии плохи

Не стоит забывать о том, что, в общем и целом, копии — это не просто полезная вещь, они необходимы. Сама Windows хранит защищенные от доступа копии важных файлов. Несмотря на то, что наличие файла desktop.ini в каждой папке с фотографиями может показаться излишним, на самом деле эти файлы служат определенной цели.

Обычно рекомендуется хранить по три копии каждого важного файла. Возможно, вы слышали о правиле резервного копирования 3-2-1 — оно довольно простое:

3 — хранить не менее трех копий данных,
2 — хранить две резервные копии на разных носителях и
1 — хранить одну резервную копию в другом месте, то есть отдельно от других резервных копий.

Как бы тривиально ни звучала инструкция, при ее выполнении можно столкнуться со сложностями.

Предположим, у нас с вами есть немного общего, и вы, как и я, пытались следовать правилу резервного копирования 3-2-1, затем на какое-то время перестали следить за этим, и теперь хотели бы навести порядок. Это может означает, что у вас гораздо больше копий, чем нужно, и они повсюду.

Я, например, обнаружил, что у меня столько потенциально одинаковых папок, что отсортировать их вручную нереально. Они хранились на нескольких дисках, как внутренних, так и внешних. Некоторые из них остались после того, как я переносил данные с флеш-накопителей, чтобы дать последние в пользование друзьям, другие были результатом попытки спасти данные с неисправного диска.

Затем была старая резервная папка с фотографиями, отсортированными методом, которым я больше не пользуюсь. Я также обнаружил три довольно объемные музыкальные коллекции, скопированных с различных портативных аудиоплееров.

Итак, что же делать?

Определиться с целями

Конкретные цели по удалению будут зависеть от конкретной ситуации.

Если вам не хватает места на диске, имеет смысл сосредоточиться на больших файлах: резервных контейнерах, видео, музыке и фотографиях — в нисходящем порядке. Текстовые документы обычно слишком малы, чтобы играть здесь какую-то роль; даже фотографии и аудиофайлы могут не стоить вашего времени, если внешние диски забиты старыми резервными копиями системы.

Если ваша цель более конкретна, например, структурировать папки с фотографиями или многочисленные папки с музыкой, приоритеты будут другими: вам нужно найти не только точные копии, но и копии фотографий с низким разрешением, а также старые, не очень качественные копии музыкальных альбомов, которые с тех пор вы перекодировали в более современный формат.

Так или иначе, расставьте приоритеты до начала всей операции. Она может занять больше, чем вы ожидаете, поэтому цените свое время. Отказ от развлечения по «убиванию» копий, потому что оно стало слишком утомительным, расстраивает. А возвращение к задаче через пару месяцев, сохранив лишь отрывочные воспоминания о том, что же вы запланировали сделать, расстраивает еще больше.

В итоге я составил список конкретных задач и целей: чтобы очистить внутренний жесткий диск, мне нужно освободить место на внешних дисках, начиная с... По ходу дела я обновлял список и отмечал уже выполненные пункты. Таким образом я мог видеть прогресс, что поддерживало мою мотивацию. И да, чтобы «подсластить» монотонность работы, я слушал любимую музыку, как в «дубликатах», так и в «оригиналах».

Пара добрых советов

Прежде чем начать что-либо удалять, убедитесь, что по три копии всего у вас таки есть. Нет, серьезно. При необходимости, перед началом удаления можно обзавестись новым внешним диском для резервного копирования данных, которые вы планируете структурировать.

Следующий совет основан на горьком личном опыте.

Убедитесь, что вы копируете свои данные: а не перемещаете файлы с одного диска на другой. Всегда сначала копируйте, затем проверяйте, что скопированные файлы идентичны оригиналам, а затем удаляйте последние. Почему я подчеркиваю этот момент? Мой совершенно новый внешний накопитель умер почти сразу после того, как я переместил на него несколько нужных мне аудиозаписей... С тех пор я никогда больше так не делаю.

Инструменты Windows, такие как FastCopy и TeraCopy, сравнивают контрольные суммы оригиналов и копий после копирования. Кроме того, вы можете проверить точность скопированных файлов с помощью внешних инструментов, например Beyond Compare или WinMerge.

Выбор инструментов для удаления

Инструменты для поиска файлов-дубликатов существуют для Linux, macOS и Windows. Одни из них бесплатны, другие предлагаются по чересчур завышенным ценам. Я рекомендую сначала проверить, можно ли решить ваши задачи с помощью бесплатных версий программ.

dupeGuru (Linux, macOS, Windows) — ветеран среди бесплатных инструментов для поиска дубликатов: он выпущен в 2004 году — и при достаточно функционален. Программа имеет три режима работы: стандартный, режим музыки и режим изображений. «Стандартный режим» находит двоичные копии, то есть файлы, совпадающие по размеру и содержанию. «Режим музыки» сравнивает теги аудиофайлов, таким образом находя дубликаты песен, закодированных в разных форматах или с разным битрейтом.

«Режим изображений» содержит алгоритм неточных совпадений, но не имеет встроенной функции просмотра изображений, позволяющей мгновенно сравнивать потенциальные дубликаты. Пользователи Windows вместо могут выбрать программу SimilarImages или VisiPics. Оба инструмента также бесплатны.

Если вы ищете копии в другой папке или на разных дисках, обязательно отметьте один из путей как «исходный». Это ускорит процесс удаления, поскольку приложение не будет удалять файлы в исходной папке. Однако, если вы ищете копии в одном каталоге, следует пометить все пути как «обычные».

Программа AllDup доступна только для Windows. Она также предлагает методы поиска музыки и изображений по неточным совпадениям и более современный интерфейс. До интегрированного предварительного просмотра изображений добираться приходиться немного в обход: чтобы активировать его, нужно выбрать «Предварительный просмотр файлов» в меню результатов поиска.

Приложение Similarity специализируется на сравнении изображений и аудиофайлов и доступно для macOS и Windows. Базовые функции бесплатны, но большая часть функций, позволяющих сэкономить время, зарезервирована для платежеспособных клиентов. Среди них ускорение OpenCL и автоматический выбор копий. Премиум-версия стоит 20 долларов за первый год, продление — 10 долларов.

В онлайн-сравнениях бесплатных инструментов для поиска дубликатов часто упоминается приложение Auslogics Duplicate File Finder, доступное только для Windows. Приложение предлагает достаточно удобный интерфейс, но его функциональность сильно ограничена: Auslogics находит только точные двоичные копии. Кроме того, программа установки запрашивает у пользователей «анонимную информацию», настройку приложения на запуск при каждом запуске Windows и установку двух дополнительных приложений. В общем, рекламы больше, чем дела.

dupeGuru и AllDup подходят для файлов небольшого размера, но их алгоритмы сравнения и управления памятью могут «забуксовать» при обработке больших файлов, то есть файлов размером более 1 ГБ. В конце концов я остановился на платной программе. Duplicate Cleaner стоит 39 долларов (разовая покупка), предлагает простой интерфейс и точно идентифицирует копии двоичных файлов, близкие совпадения и похожие аудио- и графические файлы. Программа также продемонстрировала надежность при работе с большими файлами. Единственным недостатком является локализация — перевод не очень качественный, потому лучше использовать интерфейс на английском.

Отсеивание копий двоичных файлов

Обнаружение копий двоичных файлов выполняется относительно просто. Вместо побитового сравнения каждого файла приложение вычисляет контрольную сумму содержимого файла, используя алгоритм хеширования. Расчет хэша занимает некоторое время — чем больше размер файла, тем больше времени.

Большинство инструментов для поиска одинаковых файлов используют методы хеширования MD5 или SHA1: хотя оба стандарта считаются «взломанными» с точки зрения криптографии, они работают быстро и со сравнением файлов справляются отлично. Если у вас нет причин беспокоиться о том, что кто-то намеренно создает поддельные дубликаты на вашем жестком диске, то MD5 — самое то.

Прежде чем программа для поиска файлов-дубликатов начнет анализ файлов, вы можете проверить, сколько данных ей предстоит обработать. Чтобы быстро узнать это, пользователям Windows следует выбрать анализируемую папку в проводнике Windows, нажать Alt+Return и в диалоговом окне свойств посмотреть поле «размер».

Если программа поиска дубликатов будет обрабатывать 500 ГБ данных или более, смысла сидеть и смотреть на индикатор выполнения нет: сделайте себе кофе, вернитесь и подсчитайте, сколько еще перерывов на кофе у вас в запасе. Или же вы можете запустить программу поиска дубликатов на ночь и проверить результаты утром.

Нахождение дубликатов музыки и изображений

Если вы думаете, что на двоичное сравнение уходит куча времени, подождите, пока вы не начнете сравнивать картинки и музыку. Сравнение изображений требует гораздо больше вычислительных ресурсов, чем простое вычисление контрольной суммы. Поэтмоу рекомендуется начать с двоичного сравнения (самое быстрое), затем попробовать сравнение изображений без метаданных EXIF ​​(относительно быстрое) и, наконец, метод сравнения изображений на сходство (время сделать перерыв на кофе, или обед, или сон).

Сравнивать аудиофайлы можно аналогичным образом: в Duplicate Cleaner Pro я сначала выбираю режим Match exact audio data (ignore tags) («Точное совпадение аудиоданных (игнорирование тегов)»), затем перехожу к Similar audio - Compare full file («Идентичные аудио — сравнить полный файл») — даже если эти режимы требуют времени, с их помощью достигаются самые лучшие результаты. Также можно использовать режим Match audio tags only («Сопоставить только теги аудио») (с установкой параметров Similar artist, Same title и Similar album («Идентичный исполнитель», «Одинаковое название» и «Идентичный альбом»)), но результаты полностью зависят от того, настолько точно и полно помечены музыкальные библиотеки.

Цифровая уборка: удаление пустых папок

Большинство программ удаления дубликатов стремятся убирать за собой: если при удалении дубликатов подпапки остаются пустыми, они также предлагает удалить и их. Вместе с тем вложенные папки часто остаются.

Решение — либо простой командный файл, либо специальный инструмент. Я нашел очень полезным бесплатное средство Windows «Удаление пустых каталогов», которое работает быстро и дает возможность заносить в белый список папки, которые требуется оставить.

Как избежать повторов

На то, чтобы полностью очистить свои диски от дубликатов, может уйти несколько дней. В случае больших двоичных объектов большая часть времени уходит на само сравнение. При поиске повторяющихся изображений много времени уходит на проверку правильности обнаружения дубликатов, если совпадение ниже 90%. В случае с аудиофайлами сравнение может занять довольно много времени, но процесс отсеивания довольно прост.

Моя личная дедупликационная одиссея заняла гораздо больше времени, чем я ожидал. Но в итоге у меня остались два пустых диска по 4 ТБ. В процессе цифровой уборки я также обнаружил, что три внешних диска начали выходить из строя. Если бы я не обнаружил это вовремя, возможно, я бы потерял важные данные.

Обязательно расскажите мне в комментариях, как вы чистите свои дубликаты. Какие ваши стратегии зарекомендовали себя как рабочие? Какие инструменты вы используете?

Добавить комментарий

Благодарим вас.

Продукт был добавлен в корзину.