Предложения для библиотеки преобразования формата файла - PullRequest
1 голос
/ 22 декабря 2008
  • преобразование из нескольких неграфических форматов документов в и из HTML (например, doc <-> HTML, pdf <-> html, odt <-> html и т. Д.)
  • командная строка или API (предпочтительно Java API)
  • кросс-платформенный
  • коммерческий или открытый исходный код

Существуют ли известные решения, которые соответствуют / превосходят эти требования?

Ответы [ 3 ]

2 голосов
/ 22 декабря 2008

OpenOffice имеет богатый API, который поддерживает преобразование между различными поддерживаемыми форматами. Проверьте этот вопрос. Рекомендуется использовать JODConverter .

0 голосов
/ 15 января 2009

I (написав все в одном Tex / LaTeX -> текст HTML и ASCII и конвертер RTF), сказал бы, что это было бы довольно сложным делом.

Проблема в том, что эти различные форматы документов предназначены для довольно разных целей. И хотя между некоторыми из этих форматов действительно есть такие инструменты преобразования, часто существует концептуальное несоответствие в структуре, значении и реализации «документа» и это очень часто необходимо, чтобы взломать функции, поддерживаемые одним форматом, чтобы взломать вместе приемлемый вывод в другом. Например, PDF очень силен в представлении, точном позиционировании и поддержке шрифтов, где поскольку HTML больше заботится о структуре, практически не обращая внимания на эти вещи (без CSS).

Мне любопытно, как вы себе представляете использование такого API, когда обычно кто-то просто хочет программу конвертации?

0 голосов
/ 26 декабря 2008

С DocBook вы можете экспортировать в различные форматы вывода, но возврат всегда труден. Для PDF вы можете попробовать iText

...