Прежде всего - откажитесь от любого «быстрого и грязного» решения для разбора PDF - оно с треском провалится.Мой коллега потратил много времени, пытаясь правильно решить эту проблему в iOS.Его лучшие 3 (по качеству, по убыванию) опции:
- muPDF (http://www.mupdf.com/) Отличная библиотека - она отлично справится с извлечением. Она лицензирована под GPL, хотя и является ограничителем для нашего шоупроприетарное приложение.
- Самодельное решение на основе CGPDFScanner . Краткое описание того, как это сделать , можно найти здесь . Основная проблема этого подхода - сам SDK.- API Apple для PDF строго (и сознательно подозреваю) ограничен. Например, вам придется размещать извлеченные текстовые блоки в 2D-пространстве, потому что PDF не гарантирует, что порядок рисования соответствует текстовому потоку, и iOS SDK не является немногоздесь полезно.
- Poppler (http://poppler.freedesktop.org/) - это нормально, но для извлечения текста это грубый эквивалент второго варианта (с множеством дополнительных зависимостей).
В Mac OS X может быть больше вариантов, но я их не знаю.