PDF OCR Google облако видение держать интервал - PullRequest
0 голосов
/ 28 января 2020

Не знаю, возможно ли это, но я получаю формы в формате PDF. Мне нужно взять текст из PDF в той же позиции, в которой он находится в файле, и поместить его в текстовый документ, который я могу проанализировать следующим образом:

Строка 4 startCharacter 50 endcharacter 60

This даст мне любой текст в этой позиции.

Возможно ли это?

1 Ответ

0 голосов
/ 06 февраля 2020

В настоящее время это невозможно сделать. Я нашел запрос Feature к Cloud Vision API, чтобы взять файл PDF и экспортировать его как PDF с возможностью поиска, что может решить эту проблему. Я рекомендую вам подписаться на запрос функции (нажмите на звездочку рядом с заголовком), чтобы он стал более заметным.

Тем временем вы можете проверить документацию о распознавании PDF попробуйте и посмотрите, сможете ли вы получить желаемое поведение.

Если формы, с которыми вы работаете, имеют определенный формат, вы можете решить проблему, пройдя через TextAnnotation ответ от API. В ответе содержится текст, а также дополнительная информация о нем, например страницы, абзацы и т. Д. c.

...