Я использую Google OCR для извлечения текста и ограничивающих рамок из корпуса документов. Уже давно пользуюсь. Я использую google.cloud.vision.ImageAnnotatorClient()
и document_text_detection()
, чтобы получить то, что мне нужно. Код похож на этот . К сожалению, у меня есть специальная группа c греческих документов, в которых обнаружение текста не всегда работает. В некоторых документах все работает как шарм, текст извлекается, а ограничивающие рамки возвращаются, но в других документах правильно идентифицируются и извлекаются только цифры, знаки препинания и английские sh слова. Все документы в этой группе очень похожи по своему характеру: одинаковый шрифт, размер и структура. Насколько я знаю, все они созданы одинаково. Эти документы похожи на своего рода квитанцию об оплате, из которой я хочу извлечь данные. Все они выглядят почти одинаково, однако OCR для некоторых документов просто не работает. Язык не определяется, и идентифицируется очень мало содержимого.
Я не знаю, как это отладить. Как пользователь я использую конечную точку Google Vision OCR как черный ящик.
Как я могу понять, в чем проблема? Есть какие-нибудь подсказки о том, где может быть проблема? К сожалению, я не могу поделиться документами. Любая помощь приветствуется.
ОБНОВЛЕНИЕ: Если я использую Feature.Type.TEXT_DETECTION
вместо Feature.Type.DOCUMENT_TEXT_DETECTION
, я действительно получаю весь текст! Текст плотный, поэтому имеет смысл использовать DOCUMENT_TEXT_DETECTION
. В каких случаях TEXT_DETECTION
будет работать лучше?