Question

Привет, я работаю над приложением, которое анализирует pdf-данные для просмотра на мобильных устройствах. Я ищу способ отсканировать pdf-файл на предмет конкретного текста и получить координаты x & y этого текстового блока. Это даже возможно. Я работаю на сервере Linux с php, но я могу использовать любые средства, чтобы это работало. Спасибо.

Olaf Drümmer · Answer 1 · 08 июня 2011

Коммерческие опции:

TET (Text Extraction Toolkit) SDK от http://www.pdflib.com; Плагин Acrobat для тестирования механизма
pdfToolbox SDK от http://www.callassoftware.com; для тестирования доступна интерактивная настольная версия
, если вы готовы самостоятельно выполнить кодирование: Adobe PDF Library, SDK, доступно через Datalogics

Все они достаточно зрелые, TET очень специфичен для извлечения текста, pdfToolbox - это SDK общего назначения для анализа и обработки PDF-файлов (но имеет особую функцию для извлечения текста с координатами текста на странице) и Adobe PDF Библиотека - скорее инструмент разработки общего назначения (предлагает множество низкоуровневых функций, но должен быть написан код, который находит текст / слова / символы и извлекает координаты).

Отказ от ответственности: я работаю для программного обеспечения callas, мой взгляд на pdfToolbox может быть предвзятым.

PDF разбора конкретного текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PDF разбора конкретного текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов