Я пытался прочитать некоторые отсканированные документы с помощью Tesseract OCR. Большинство документов неясны, поэтому я получаю некоторые мусорные значения в строках. например,
Фактический вывод: поле даты: 16 / 02M9 , десятичное поле: 7,223. .95 C
Ожидаемый результат: поле даты: 16/02/19 , десятичное поле: 7,223,950
Это всего лишь несколько примеров, я сталкиваюсь с большим количеством подобных проблем. Итак, существует ли какая-либо библиотека, которая может очистить или предсказать правильное значение на основе данного типа данных, такого как date, numeri c, et c.