Azure Computer Vision API - распознавание текста в файлах PDF - PullRequest
0 голосов
/ 28 сентября 2018

Я пытаюсь использовать Computer Vision API для распознавания PDF-файла, который является отсканированным документом, но рассматривается как PDF-файл изображения.

Я протестировал его, и он говорит мне, что PDF-файл "InvalidImageFormat", "Входные данные не являются допустимым изображением".Когда я тестирую его на PNG, он работает отлично.

Можно ли в любом случае использовать API для изображения PDF или есть API Azure, который я мог бы использовать вместе, чтобы перейти в PDF> PNG> Текст?

Ответы [ 3 ]

0 голосов
/ 26 ноября 2018

Извините, вы должны разбить страницы PDF на изображения (JPG и PNG).Затем отправьте изображения в Computer Vision.Также неплохо разбить его так, чтобы вам не приходилось распознавать все страницы, а только те, которые имеют значение.

0 голосов
/ 15 марта 2019

Последняя служба OCR, недавно предложенная Microsoft Azure, называется Распознавание текста , что значительно превосходит предыдущий механизм распознавания .Распознавание текста теперь можно использовать с Read , который считывает и оцифровывает документы PDF до 200 страниц.

0 голосов
/ 30 октября 2018

Изменить

Поскольку ответы на дополнительные услуги стали доступны, хотя некоторые из них я лично не пробовал, они могут подойти для этой цели.

https://docs.microsoft.com/en-us/azure/search/cognitive-search-concept-intro

И в какой-то момент в будущем, когда идет ГА.https://aws.amazon.com/textract/

Оригинальный ответ

К сожалению, в Azure нет интеграции с PDF для API Computer Vision.Чтобы использовать Azure Computer Vision, вам нужно изменить PDF-файл на изображение (JPG, PNG, BMP, GIF) самостоятельно.

Google do теперь предлагает интеграцию pdf, и я пока вижу некоторые действительно хорошие результаты от этого тестирования.

Это делается с помощью метода asyncBatchAnnotateFiles методаКлиент видения (я использовал вариант API NodeJS)

Он может обрабатывать файлы до 2000 страниц, результаты разбиваются на 20 страниц и выводятся в Google Cloud Storage.

https://cloud.google.com/vision/docs/pdf

...