Я довольно много осмотрел доску, прежде чем опубликовать здесь, но я не увидел ничего, что отражало бы то, что я надеялся сделать.
Мы получаем большое количество входящих факсов (более 500 страниц в день) в виде отдельных документов (около 100+ документов в день). Довольно часто отправитель (будучи в больнице) отправляет один и тот же документ через пару часов после первой попытки. Я хотел бы пометить вторую передачу как «потенциальный клон», чтобы ее можно было соответствующим образом маршрутизировать и помечать.
Я хочу знать, как я могу вычислить и пометить с помощью какого-либо хэша или идентификатора для каждого прибывающего факса (PDF / TIFF), а затем быстро выполнить сканирование в нашей базе данных документов, чтобы определить, является ли он уникальным или нет.
Очевидно, что нет никакого способа не выглядеть уверенным на 100%, но мне кажется, что один факс будет таким же, как другой, если:
- То же количество страниц
- Отправлено в течение 24 часов после оригинала
- Хеш-код похож (в пределах порога)
Но я немного застрял в сравнении изображений. Я ищу пороговый хэш-код или какой-то способ сказать, что «изображения на p4 каждого факса с вероятностью 95% будут одинаковыми». Например, возможно, что p4 исходного факса было искажено, но p4 вновь отправленного факса является прямым. Я думал о том, чтобы сначала пропустить все страницы факса через что-то вроде ClearImage Repair от Inlite Research, чтобы выровнять, повернуть и откалибровать все страницы.
Кто-нибудь делал что-то подобное?