Как извлечь текст из изображения в PDF-файл? - PullRequest
0 голосов
/ 11 октября 2018

Я использую tika в своем приложении Python для извлечения текста из документов.Все работает нормально, но оно не извлекается из изображения в файле PDF.Tika извлекает текст из PDF, а также изображений, но не из PDF, содержащего изображения.Я немного смущен.Есть ли способ сделать это?Нужно ли конвертировать файл PDF в изображение?

1 Ответ

0 голосов
/ 12 января 2019

Сайт https://pdf2text.online/ делает именно то, что вы ищете.Он извлекает редактируемый текст из PDF-файлов и выполняет распознавание изображений, которые находятся в PDF.Таким образом, вы получаете полную информацию в виде редактируемого текста.

...