Лучший подход к получению одинаковых значений из кадра данных с переменной позицией ввода - PullRequest
0 голосов
/ 09 октября 2019

Я работаю над проектом, который использует OCR для извлечения текста из отсканированных квитанций. Вывод OCR записывается в лист Excel и затем загружается в кадр данных Pandas. Для каждого чека та же информация извлекается из кадра данных и используется для программы. Проблема в том, что поступления не все одинаковы, а дата-фрейм всегда немного отличается. Мне нужен способ получить одну и ту же информацию из каждого кадра данных независимо от неоднозначности или положения.

В настоящее время я использую модуль pandas .at[] и операторы if, проверенные по regex. Я чувствую, что есть лучший способ. OCR, который я использую, это https://www.onlineocr.net/, и если у вас есть лучшее предложение, которое, возможно, пишет в CSV, это было бы здорово. Нет, texttract и tesseract не работают для этого приложения.

Если регулярное выражение не выполнено, я получу значение со значением NaN и в настоящее время получаю около 70% успеха, но хотел бы, чтобы t было> 90%. Любые предложения или помощь приветствуется.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...