Question

До этого момента я не нашел решения, которое бы хорошо работало для извлечения текста из PDF-файла в Objective C для использования на iPhone. Я нашел какой-то стандартный код C и изменил его для работы, и подумал, что приведу его здесь, так как до этого момента я довольно часто использовал stackoverflow, но никогда не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview

Он принимает в качестве входных данных путь к файлу PDF и возвращает строку текста в файле PDF. Я не написал большую часть этого, но я изменил его, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в ваш проект (libz.dylib на iPhone), если кто-то возьмется за это и сделает это более круто, это хорошие времена.

Ori · Answer 1 · 26 февраля 2011

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированных PDF-файлов. Если вы хотите сделать это, есть возможность использовать Tesseract , надежный механизм Google и механизм распознавания FOSS. Он компилируется на iPhone : см. Tesseract-iPhone-Demo Нолана Брауна для рабочего примера. Библиотека изображений ImageMagic также компилируется на iPhone и позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.

Извлечение PDF-текста в Задаче C

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение PDF-текста в Задаче C

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов