Как отладить Google OCR, не работающий на подмножестве группы похожих документов - PullRequest
0 голосов
/ 13 июля 2020

Я использую Google OCR для извлечения текста и ограничивающих рамок из корпуса документов. Уже давно пользуюсь. Я использую google.cloud.vision.ImageAnnotatorClient() и document_text_detection(), чтобы получить то, что мне нужно. Код похож на этот . К сожалению, у меня есть специальная группа c греческих документов, в которых обнаружение текста не всегда работает. В некоторых документах все работает как шарм, текст извлекается, а ограничивающие рамки возвращаются, но в других документах правильно идентифицируются и извлекаются только цифры, знаки препинания и английские sh слова. Все документы в этой группе очень похожи по своему характеру: одинаковый шрифт, размер и структура. Насколько я знаю, все они созданы одинаково. Эти документы похожи на своего рода квитанцию ​​об оплате, из которой я хочу извлечь данные. Все они выглядят почти одинаково, однако OCR для некоторых документов просто не работает. Язык не определяется, и идентифицируется очень мало содержимого.

Я не знаю, как это отладить. Как пользователь я использую конечную точку Google Vision OCR как черный ящик.

Как я могу понять, в чем проблема? Есть какие-нибудь подсказки о том, где может быть проблема? К сожалению, я не могу поделиться документами. Любая помощь приветствуется.

ОБНОВЛЕНИЕ: Если я использую Feature.Type.TEXT_DETECTION вместо Feature.Type.DOCUMENT_TEXT_DETECTION, я действительно получаю весь текст! Текст плотный, поэтому имеет смысл использовать DOCUMENT_TEXT_DETECTION. В каких случаях TEXT_DETECTION будет работать лучше?

...