Конвертировать doc / docx в семантический HTML - PullRequest
1 голос
/ 26 августа 2009

Я хотел бы преобразовать документы doc / docx в семантический HTML.

Некоторые пожелания / требования:

  1. Семантический HTML такой, что заголовки в документе

    , и т. Д., Таблицы и т. Д.

  2. Желательно иметь возможность обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение.

• Не нужно конвертировать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.

• Должен работать программно и с большим количеством документов.

Самым близким к решению, которое я нашел, является http://holloway.co.nz/docvert/index.html,, но, к сожалению, есть много ошибок, небольшая база пользователей, и она не может обрабатывать много документов. Больше доказательства концепции.

Ответы [ 5 ]

2 голосов
/ 16 марта 2010

"заголовки в документе есть" Я думаю, что это невозможно. Поскольку MS Word записывает только результат, с различными стилями <p> как и печатный текст на бумаге, оригинальная информация не записывается.

Ваши другие пожелания могут быть достигнуты. Есть два коммерческих инструмента, которые могут сделать это (не верьте этим бесплатным инструментам или онлайн-инструментам, они не выполняют настоящую работу.)

1 Word Cleaner от Zapadoo www.zapadoo.com
2 HTML Cleaner для Word от удивительной студии www.htmlcleaner.com

Я предпочитаю второй, выпущенный только в прошлом году. Вы можете попробовать их обоих.

1 голос
/ 30 сентября 2010

docx4j (только для docx, а не для doc) записывает чистый вывод HTML. Вам нужно немного изменить положение вещей, если вы хотите

вместо , но с открытым исходным кодом, чтобы вы могли это сделать.

1 голос
/ 26 августа 2009

Я написал утилиту, которая реализует перечисленные вами требования, за исключением изображений, графиков и математических формул. Это бета-качество (то есть работает на моей машине). Я опубликовал это в http://www.modeltext.com/word

1 голос
/ 26 августа 2009

Существует инструмент под названием upCast , который способен конвертировать документы Word в XML.

0 голосов
/ 17 января 2011

Просто больше идей.

Используйте Gmail для преобразования документов Word

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

...