PDF разбора конкретного текста - PullRequest
1 голос
/ 07 июня 2011

Привет, я работаю над приложением, которое анализирует pdf-данные для просмотра на мобильных устройствах. Я ищу способ отсканировать pdf-файл на предмет конкретного текста и получить координаты x & y этого текстового блока. Это даже возможно. Я работаю на сервере Linux с php, но я могу использовать любые средства, чтобы это работало. Спасибо.

1 Ответ

3 голосов
/ 08 июня 2011

Коммерческие опции:

  • TET (Text Extraction Toolkit) SDK от http://www.pdflib.com; Плагин Acrobat для тестирования механизма
  • pdfToolbox SDK от http://www.callassoftware.com; для тестирования доступна интерактивная настольная версия
  • , если вы готовы самостоятельно выполнить кодирование: Adobe PDF Library, SDK, доступно через Datalogics

Все они достаточно зрелые, TET очень специфичен для извлечения текста, pdfToolbox - это SDK общего назначения для анализа и обработки PDF-файлов (но имеет особую функцию для извлечения текста с координатами текста на странице) и Adobe PDF Библиотека - скорее инструмент разработки общего назначения (предлагает множество низкоуровневых функций, но должен быть написан код, который находит текст / слова / символы и извлекает координаты).

Отказ от ответственности: я работаю для программного обеспечения callas, мой взгляд на pdfToolbox может быть предвзятым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...