Как я могу определить, есть ли два скана из одного и того же документа? - PullRequest
0 голосов
/ 07 декабря 2018

У меня есть несколько файлов изображений, отсканированных из счетов.В прошлом это был грязный процесс, и поэтому нет гарантии, что у меня не будет дубликатов, которые были отсканированы в разное время.

Как определить вероятность того, что два файла изображения были отсканированы стот же документ?

Я думаю об использовании расстояния Левенштейна для вывода оптического распознавания текста (из тессеракта), но мне интересно, являются ли другие методы более перспективными.

...