Есть ли способ извлечь текст из файлов PostScript (.ps, .eps), используя Java? - PullRequest
4 голосов
/ 10 ноября 2009

Я ищу решение, похожее на PDFBox для PDF-файлов Apache Tika, однако для файлов PS.

спасибо.

Ответы [ 2 ]

1 голос
/ 10 ноября 2009

Как говорит Джеймс Блэк, вероятно, лучше всего просто конвертировать в PDF и использовать знакомые вам инструменты.

Однако существует pstotext , который доступен, например, во вселенной Ubuntu в своем собственном пакете.

Сам Ghostscript также поставляется с ps2txt и ps2ascii, которые также могут это делать.

1 голос
/ 10 ноября 2009

Вы можете использовать Ghostscript для преобразования в pdf, http://www.osalt.com/ghostscript,, тогда есть различные библиотеки для обработки pdf.

Это имеет то преимущество, что вы извлекаете файлы только из PDF-файлов, поэтому вы можете работать с другими форматами при условии, что вы можете конвертировать их в PDF-файлы.

...