Я работаю над проектом, который использует OCR для извлечения текста из отсканированных квитанций. Вывод OCR записывается в лист Excel и затем загружается в кадр данных Pandas. Для каждого чека та же информация извлекается из кадра данных и используется для программы. Проблема в том, что поступления не все одинаковы, а дата-фрейм всегда немного отличается. Мне нужен способ получить одну и ту же информацию из каждого кадра данных независимо от неоднозначности или положения.
В настоящее время я использую модуль pandas .at[]
и операторы if
, проверенные по regex
. Я чувствую, что есть лучший способ. OCR, который я использую, это https://www.onlineocr.net/, и если у вас есть лучшее предложение, которое, возможно, пишет в CSV, это было бы здорово. Нет, texttract и tesseract не работают для этого приложения.
Если регулярное выражение не выполнено, я получу значение со значением NaN
и в настоящее время получаю около 70% успеха, но хотел бы, чтобы t было> 90%. Любые предложения или помощь приветствуется.