Извлечение PDF-текста в Задаче C - PullRequest
53 голосов
/ 02 июня 2010

До этого момента я не нашел решения, которое бы хорошо работало для извлечения текста из PDF-файла в Objective C для использования на iPhone. Я нашел какой-то стандартный код C и изменил его для работы, и подумал, что приведу его здесь, так как до этого момента я довольно часто использовал stackoverflow, но никогда не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview

Он принимает в качестве входных данных путь к файлу PDF и возвращает строку текста в файле PDF. Я не написал большую часть этого, но я изменил его, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в ваш проект (libz.dylib на iPhone), если кто-то возьмется за это и сделает это более круто, это хорошие времена.

1 Ответ

5 голосов
/ 26 февраля 2011

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированных PDF-файлов. Если вы хотите сделать это, есть возможность использовать Tesseract , надежный механизм Google и механизм распознавания FOSS. Он компилируется на iPhone : см. Tesseract-iPhone-Demo Нолана Брауна для рабочего примера. Библиотека изображений ImageMagic также компилируется на iPhone и позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...