SoftMaker logo

Além dos bytes

Eliminação de arquivos duplicados: estratégias e ferramentas

É sempre uma boa ideia manter várias cópias de arquivos importantes. No entanto, isso pode fazer com que você tenha muito mais cópias do que realmente precisa, consumindo seu espaço de armazenamento ou simplesmente criando bagunça.

Eliminar duplicados em excesso não é tão fácil quanto parece. Antes de excluir os arquivos, é importante garantir que eles realmente sejam redundantes e não apenas arquivos que compartilham o mesmo nome. Para excluir duplicados com segurança, são necessárias duas coisas: um bom localizador de duplicados e uma estratégia para utilizá-lo da melhor maneira.

Nem todas os duplicados são ruins

Devo ressaltar que, de forma geral, os duplicados são mais do que bons: são essenciais. O próprio Windows mantém várias cópias de alguns arquivos importantes, os quais não devem ser tocados. Mesmo que pareça ser redundante ter um arquivo desktop.ini em cada pasta de fotos, ele realmente tem uma finalidade.

Costuma ser apropriado ter três cópias de cada arquivo importante para você. Talvez você já tenha ouvido falar da regra de backup 3-2-1, que é bem simples:

3 — mantenha pelo menos três cópias dos seus dados;
2 — armazene duas cópias de backup em duas mídias de armazenamento diferentes;
1 — armazene um dos backups em outro local, isto é, longe de outros backups.

Por mais básico que isso pareça, seguir essa tática pode se tornar complicado.

Vamos assumir que você seja uma pessoa parecida comigo e que tentou seguir a regra de backup 3-2-1, mas relaxou por um tempo e, agora, está tentando voltar aos trilhos. Isso provavelmente significa que você tem muito mais cópias do que realmente precisa e que elas estão espalhadas por todo o lado.

Eu, por exemplo, de repente me vejo com mais possíveis pastas duplicadas do que sou capaz de examinar manualmente. Elas estavam espalhadas entre vários discos, alguns internos, outros externos. Alguns duplicados eram restos de unidades que esvaziei antes de emprestá-las para amigos, outras eram resultados de uma tentativa desesperada de resgatar dados de uma unidade com defeito.

Também havia uma antiga pasta de backup de fotos que seguia uma categorização que eu já não uso mais. Eu também desenterrei três coletâneas de músicas bagunçadas, resgatadas de diversos dispositivos portáteis antes de aposentá-los.

Então, o que fazer...?

Defina metas

Sua situação específica definirá suas metas específicas para eliminar os duplicados.

Se você estiver com pouco espaço, vai querer se concentrar somente em arquivos grandes: contêineres de backup, vídeos, músicas e fotos (em ordem descendente). Documentos Office costumam ser muito pequenos para serem relevantes nesse caso. Até mesmo fotos e arquivos de áudio podem não valer o tempo quando suas unidades externas estão entupidas de backups antigos do sistema.

Se você tiver uma meta mais específica, como organizar suas pastas de fotos ou sua coletânea dispersa de músicas, suas prioridades poderão ser diferentes: você não estará buscando apenas duplicados, mas também cópias de fotos com resolução mais baixa ou gravações mais antigas e inferiores que já foram recodificadas em um formato mais moderno.

De qualquer forma, lembre-se de definir suas prioridades antes de começar. Isso pode demorar, por isso seja eficiente. Não há nada mais frustrante do que abandonar sua empreitada de eliminação de duplicados porque o processo ficou muito chato, e retomar a tarefa meses depois com apenas uma memória vaga do que queria fazer.

Eu acabei criando uma lista com as minhas necessidades e metas específicas: para limpar meu disco interno, eu preciso liberar espaço nas minhas unidades externas, começando por... Ao longo do processo, eu sempre atualizava a lista e riscava os itens que já havia concluído. Isso me passava a sensação de progresso, o que é essencial para manter a motivação. Ah, é claro que eu também escutei muitas das minhas músicas favoritas para tornar o trabalho mais agradável.

Algumas palavras sábias

Antes de começar a excluir qualquer coisa, verifique se realmente tem três cópias de tudo. Sério. Se necessário, consiga outra unidade externa para fazer backup dos dados que planeja examinar antes de prosseguir.

O próximo conselho se baseia em más experiências.

Certifique-se de apenas copiar os dados: nunca mova os arquivos de uma unidade para outra. Sempre copie primeiro, verifique se os arquivos copiados realmente são idênticos, depois exclua os originais. Por que eu estou enfatizando este ponto? Bem, uma vez um disco externo novinho quebrou logo depois que eu movi gravações de áudio insubstituíveis para ele... nunca mais faço isso.

Ferramentas do Windows, como FastCopy e TeraCopy, comparam as somas de verificações dos originais e das cópias depois da transferência. Como alternativa, você pode verificar os arquivos copiados usando ferramentas externas, como Beyond Compare ou WinMerge.

Escolha suas ferramentas

Os localizadores de duplicados estão disponíveis para Linux, macOS e Windows. Muitos deles são gratuitos, alguns têm um preço exorbitante. Minha recomendação é primeiro testar as opções gratuitas para ver se atendem às suas necessidades.

O dupeGuru (Linux, macOS, Windows) é um veterano entre os localizadores de duplicados gratuitos: ele é de 2004 e sua aparência não mente. Ele tem três modos de operação: padrão, música e fotos. O modo “Padrão” encontra duplicados binários, isto é, arquivos correspondentes em tamanho e conteúdo. O modo “Música” compara tags de arquivos de áudio, por isso também encontra músicas duplicadas codificadas em formatos diferentes ou em taxas de bits diferentes.

Embora o modo de “fotos” inclua um algoritmo de busca difusa, ele não tem um visualizador integrado para possibilitar comparações imediatas entre possíveis duplicados. Usuários do Windows talvez prefiram o SimilarImages ou o VisiPics. Ambas as ferramentas são gratuitas.

Se você estiver procurando duplicados em pastas ou unidades diferentes, lembre-se de marcar um dos diretórios como “referência”. Isso vai acelerar o processo de remoção já que o aplicativo impedirá a exclusão de arquivos do diretório de referência. Por outro lado, se você estiver buscando duplicados no mesmo diretório, mantenha todos os diretórios como “normal”.

O AllDup só está disponível para Windows. Ele também inclui métodos de busca difusa para músicas e imagens, e a interface é um pouco mais moderna. A visualização interna de imagens fica escondida: você precisa escolher “File preview” no menu Search Result para abri-lo.

O Similarity é especializado em comparações de imagens e áudio, e está disponível para macOS e Windows. A funcionalidade básica é gratuita, mas a maioria dos recursos que poupam tempo estão reservados para clientes pagantes, incluindo aceleração do OpenCL e seleção duplicada automática. A versão premium custa US$ 20 no primeiro ano, com renovação por US$ 10.

Comparações online de localizadores de duplicados gratuitos costumam mencionar o Auslogics Duplicate File Finder que é somente para Windows. A interface da ferramenta é intuitiva o suficiente, mas sua funcionalidade é muito limitada: a ferramenta Auslogics só encontrará duplicados binários exatos. Além disso, o instalador tenta coagir os usuários a compartilhar “informações anônimas”, definir o aplicativo para iniciar sempre que o Windows inicializar e instalar dois aplicativos adicionais. No geral, tudo não passa de um grande anúncio.

O dupeGuru e o AllDup são decentes para arquivos menores, mas seus algoritmos de comparação e gerenciamentos de memória podem engasgar com arquivos grandes, isto é, qualquer coisa acima de 1 GB. Eu acabei optando por uma alternativa comercial. O Duplicate Cleaner custa US$ 39, taxa única, oferecendo uma interface direta e identificando de maneira confiável duplicados binários, correspondências próximas e arquivos de áudio e imagens semelhantes. Também se mostrou muito robusto no tratamento de arquivos grandes. O único ponto negativo é que a tradução para o alemão é ruim — é melhor mudar a interface de usuário para inglês.

Filtre duplicados binários com facilidade

Encontrar duplicados binários é relativamente fácil. Em vez de comparar cada arquivo bit por bit, o aplicativo calcula somas de verificação dos conteúdos de arquivos usando um algoritmo de hash. O cálculo desses hashes levará algum tempo: quanto maior o arquivo, maior o tempo.

A maioria dos localizadores de duplicados usa hashes MD5 ou SHA1: embora ambos os padrões sejam considerados “quebrados” para fins de criptografia, são rápidos e bons o suficiente para comparações de arquivos. A menos que você tenha motivos para acreditar que alguém manipularia os arquivos em seu disco rígido de maneira deliberada para criar duplicados falsos, MD5 deverá ser suficiente.

Antes que o localizador de duplicados analise seus arquivos, talvez você queira verificar a quantidade de dados que será analisada. Para uma verificação rápida, usuários do Windows selecionam a pasta a ser analisada no Windows Explorer, pressionam Alt+Return e verificam a entrada “tamanho” no diálogo de propriedades.

Caso seu duplicador esteja prestes a processar 500 GB de dados ou mais, não adianta sentar-se ali, olhando fixamente para a barra de progresso: pegue um café, volte e extrapole quantos mais cafés o software vai gastar calculando seus hashes. Talvez você decida deixar o localizador de duplicados trabalhar durante a noite para conferir os resultados no dia seguinte.

Identifique músicas e imagens duplicadas

Se você acha que a comparação binária é demorada, espere até começar a comparar imagens e músicas. A comparação de imagens exige muito mais recursos computacionais do que simples cálculos de somas de verificação. Por isso é mais aconselhado começar com uma comparação binária (mais rápida), depois testar uma comparação de imagens sem metadados EXIF (ainda razoavelmente rápida) e, finalmente, buscar semelhanças (hora do café).

A comparação de arquivos de áudio pode ser feita de maneira semelhante: no Duplicate Cleaner Pro, eu começo com “Match exact audio data (ignore tags)”, depois prossigo com “Similar audio - Compare full file” — mesmo que esses modos sejam demorados, eles fornecem os resultados mais confiáveis. “Match audio tags only” também funciona (defina “Similar artist”, “Same title” e “Similar album”), mas os resultados dependem da organização das marcações de sua biblioteca.

Limpeza digital: elimine pastas vazias

A maioria dos limpadores de duplicados tentam limpar os restos do processo: se a exclusão dos duplicados produzir subpastas vazias, eles oferecerão a possibilidade de excluí-las também. No entanto, as pastas aninhadas geralmente resultam em sobras.

A solução é um simples arquivo em lotes ou uma ferramenta especial. Eu gosto do freeware “Remove Empty Directories” para Windows, que trabalha com rapidez e oferece a opção de incluir na lista de permissões as pastas que deseja manter.

O que fazer para impedir repetições

A eliminação total dos duplicados pode levar dias. Com duplicados binários grandes, a maior parte do tempo é consumida pelas próprias comparações. Ao buscar imagens redundantes, boa parte do tempo é consumida para garantir que os duplicados abaixo de 90% tenham sido detectados corretamente. Com arquivos de áudio, as comparações podem ser mais demoradas, mas o processo de eliminação é bem direto.

A minha odisseia de eliminação de duplicados levou muito mais tempo do que eu esperava. Eu terminei com duas unidades de 4 TB vazias. Durante a minha limpeza digital, eu também descobri que três discos externos estavam começando a falhar. Se eu não tivesse descoberto isso a tempo, provavelmente teria perdido dados importantes.

Deixe nos comentários como você lida com os seus duplicados. Você tem outras estratégias que funcionaram para você? Quais ferramentas você usa?

Adicionar comentário

Obrigado.

O produto foi adicionado ao carrinho de compras.