Я работаю над проектом по преобразованию OCR'd PDf в png с использованием ImageMagick и ghostscript и отображении в браузере, чтобы я мог выбирать слова на изображении, разрешив пользователю запросить слово. Imagemagick прекрасно работает вместе с ghostscript.
У меня проблема с утилитой ps2text, когда она не работает надежно с pdf. Кто-нибудь может предложить хорошую утилиту для преобразования postscript в текст в Linux, чтобы я мог сохранить его в БД. После этого я использую пользовательский класс поиска, чтобы узнать координаты каждого слова и выделить текст в браузере.
Спасибо