У меня есть несколько файлов изображений, отсканированных из счетов.В прошлом это был грязный процесс, и поэтому нет гарантии, что у меня не будет дубликатов, которые были отсканированы в разное время.
Как определить вероятность того, что два файла изображения были отсканированы стот же документ?
Я думаю об использовании расстояния Левенштейна для вывода оптического распознавания текста (из тессеракта), но мне интересно, являются ли другие методы более перспективными.