постскриптум к тексту - PullRequest
1 голос
/ 26 мая 2010

Я работаю над проектом по преобразованию OCR'd PDf в png с использованием ImageMagick и ghostscript и отображении в браузере, чтобы я мог выбирать слова на изображении, разрешив пользователю запросить слово. Imagemagick прекрасно работает вместе с ghostscript.

У меня проблема с утилитой ps2text, когда она не работает надежно с pdf. Кто-нибудь может предложить хорошую утилиту для преобразования postscript в текст в Linux, чтобы я мог сохранить его в БД. После этого я использую пользовательский класс поиска, чтобы узнать координаты каждого слова и выделить текст в браузере.

Спасибо

1 Ответ

0 голосов
/ 26 мая 2010

Для postscript вы должны использовать ps2text. Для PDF, вы можете pdftotext.

...