Лучший подход к распознаванию документов с различными форматами, чтобы найти одну конкретную информацию - PullRequest
2 голосов
/ 19 июня 2019

К сожалению, из-за конфиденциальных данных я не могу дать более конкретного объяснения.

Проблема

Итак, у меня есть несколько документов, которые вОбычно содержат одну и ту же информацию, но имеют разные форматы.В большинстве случаев искомое значение находится рядом с ключевым словом в документе.О самом OCR заботится API Google Cloud Vision, но как лучше всего обрабатывать различные форматы?

Моя идея

... заключалась в обучении классификатора, который обнаруживает, чтоФормат, с которым я имею дело, а затем выбирает подходящий способ нахождения целевого значения, который я реализовал заранее вручную.Это не удобно и не масштабируемо.Поэтому я ищу какой-то алгоритм, который я скажу, например, где находится целевое значение, как оно выглядит и т. Д.

Каков наилучший подход к решению проблемы ML или каковы ваши идеи?

В качестве примера типа данных: Допустим, у меня есть чеки из 20 различных супермаркетов, и я ищу, чтобы найти общую стоимость, с проблемой, что квитанция каждой компании выглядит по-разному.

1 Ответ

1 голос
/ 19 июня 2019

Недавно мне пришлось столкнуться с подобной ситуацией, используя tesseract , исключая сам инструмент OCR, я не использовал ML-подход, потому что, как вы сказали, он не будет масштабируемым.

Я не думаю, что классификатор окупился бы, если бы у вас не было огромного количества разных макетов, и тогда вам нужно было бы решить, как извлечь данные для каждого макета ...

Это во многом зависит от типа данных, которые вам нужно извлечь, но на вашем примере, если вам нужно было извлечь общую стоимость из всех разных макетов, вы можете извлечь как можно больше чисел из каждой квитанции, и оценка их на основе некоторых факторов, таких как:

  1. Если это стоимость ($ или другие символы валюты)
  2. Расстояние до некоторых распространенных ключевых слов, таких как "Итого, Итоговое, Сумма и т. Д."
  3. Если это наибольшее значение для этого чека
  4. Другие факторы, о которых вы можете подумать, все зависит от данных, которые вам нужно извлечь

Затем вы можете рассчитать итоговую общую стоимость, используя индивидуальные затраты, набравшие наибольшее значение для каждого чека

...