Azure ComputerVision OCR и формат PDF - PullRequest
       57

Azure ComputerVision OCR и формат PDF

1 голос
/ 19 сентября 2019

Я нашел несколько старых вопросов о том, нужно ли и как делать OCR, используя Cognitive Services.На Cognitive services я могу найти пошаговое описание, которое говорит мне, что и как можно сделать OCR из PDF.Когда я делаю это, как в примере, приведенном в нижней части страницы, я все равно получаю результат unsuppertdMediaType

{"code": "UnsupportedMediaType", "requestId": "c427e1c7-3f99-4a74-a36f-1620e68e3b64 "," message ":" Поддерживаемые типы мультимедиа: application / octet-stream, multipart / form-data или application / json "}

Когда я меняю PDF на изображение, все становитсяхорошо.В настоящее время я следую cognitive-services , но, несмотря на то, что запрос выглядит нормально, тип документа по-прежнему не поддерживается.Я звоню:

https: //.cognitiveservices.azure.com/vision/v2.0/ocr? Language = de & detectOrientation = true & Ocp-Apim-Subscription-Key = & Content-Type = application / octet-stream

и файл содержится в теле, конечно.

Я не публикую C # или PowerShell, поскольку проблема действительно заключается в моем запросе с URL-адреса, упомянутого выше.

Может кто-нибудь помочь мне понять, как получить действительный запрос на получение текста из PDF с помощью Azure ComputerVision?

1 Ответ

1 голос
/ 23 сентября 2019

Вы получаете эту ошибку, потому что OCR не поддерживает PDF согласно документам

API OCR работает с изображениями, которые соответствуют следующим требованиям:

  • Изображение должно быть представлено в формате JPEG, PNG, GIF или BMP.
  • Размер входного изображения должен составлять от 50 x 50 до 4200 x 4200 пикселей.
  • Текст на изображении может быть повернут на любое кратное 90 градусов плюс небольшой угол до 40 градусов.

При этом вы можете использовать новый API чтения какподдерживает PDF в соответствии с документами

API чтения работает с изображениями, которые отвечают следующим требованиям:

  • Изображение должно быть представлено в формате JPEG,Формат PNG, BMP, PDF или TIFF.
  • Размеры изображения должны составлять от 50 x 50 до 10000 x 10000 пикселей.Страницы PDF должны быть 17 x 17 дюймов или меньше.
  • Размер файла изображения должен быть менее 20 мегабайт (МБ).

Гарантируется работаесли вы следуете требованиям и используете правильную конечную точку!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...