Извлечение текста из необходимых страниц в PDF-файл - PullRequest
0 голосов
/ 22 октября 2019

Я пытаюсь использовать Form Recognizer - когнитивный сервис Azure для извлечения текста из PDF-файла. Я использую пользовательскую модель, где я обучаю эту услугу своей модели, а затем пытаюсь извлечь данные.

Мой PDF обычно содержит более 1 страницы. Но я заинтересован в извлечении текста с первой страницы. Остальные все страницы не имеют никакого значения.

Так есть ли способ научить мою систему извлекать текст из выбранных страниц, давая номер страницы?

С уважением,

Мадху

1 Ответ

0 голосов
/ 22 октября 2019

API распознавателя форм в настоящее время не поддерживает диапазоны страниц для документов при обучении моделей. Возможно, вам придется предварительно обработать документ, используя сторонние инструменты / API, чтобы отправлять только те страницы, на которых вы хотите обучить модели.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...