Удаление (рядом) дубликатов файлов - PullRequest
0 голосов
/ 07 октября 2009

Каков наилучший сценарий для удаления (почти) дубликатов файлов на основе спецификаций файлов в Windows (в данном случае XP)? Я думаю о RegEX и некотором скрипте VB, но если есть лучший способ ...

Примеры включают имена файлов, которые слабо различаются по имени либо на один, либо на два (известных) дополнительных символа в конце или в начале, но они идентичны по размеру, файлы также немного различаются по размеру ... и т. Д.

Является ли Regex лучшим способом обработки этих отклонений, если границы известны.

Ответы [ 2 ]

2 голосов
/ 07 октября 2009

Нет, я не думаю, что регулярное выражение здесь правильный инструмент. Звучит немного опасно, если вы спросите меня. В любом случае, вы можете вычислить расстояние Левенштейна между двумя именами файлов и, если оно достаточно мало (будьте осторожны с именами файлов, состоящими всего из пары символов!), Удалить один из двух.

Размеры могут быть сделаны с использованием простой арифметики.

0 голосов
/ 07 октября 2009

Вы можете использовать регулярное выражение для сопоставления (или близкого совпадения) имен файлов.

Я бы использовал регулярное выражение для сопоставления имен и составил список размеров файлов. Вы можете рассчитать дисперсию на основе тех размеров файлов, которые попадают в эту дисперсию.

После создания списка подходящих файлов вы можете получить доступ к различным атрибутам файла (размер, дата и т. Д.), Чтобы указать, какие файлы следует удалить.

...