Я бы написал скрипт для создания хеша каждого файла.Вы можете хранить хэши в наборе, перебирать файлы, а там, где файл хэширует значение, уже найденное в наборе, удалять файл.Это было бы тривиально, например, в Python.
Для 30 000 файлов при 64 байтах на запись в хэш-таблице вы смотрите только около 200 мегабайт.