Как очистить Microsoft HTML HTML? - PullRequest
7 голосов
/ 28 июня 2009

У меня довольно большой документ в формате html, сгенерированный из Microsoft Word. Это так грязно и полно раздутых вещей (таких как неизвестные теги, неизвестные пространства имен и т. Д. И другие раздутые вещи)

есть ли способ преобразовать его в обычный HTML-синтаксис?

Ответы [ 4 ]

6 голосов
/ 28 июня 2009

Попробуйте HTML Tidy . Я слышал, что он хорошо работает с HTML, сгенерированным MS Word (определенно, по крайней мере, до Word 2000, но, возможно, и с более поздними версиями).

2 голосов
/ 28 июня 2009

Вы, вероятно, ищете HTML Tidy , который имеет адаптеры практически на всех языках. У него есть опции для очистки вывода Microsoft Word HTML (и многие другие функции).

2 голосов
/ 28 июня 2009

Это на самом деле не вопрос программирования, но (по крайней мере, в последних версиях) Word можно сохранить в «Web Page, Filtered», которая удаляет специфичные для Office теги и свойства и оставляет только те теги, которые необходимы для документа. отображается в веб-браузере. Итак, если у вас есть Word, вы можете попробовать использовать его, чтобы открыть документ HTML и сохранить его в этом формате.

1 голос
/ 13 марта 2011

попробуйте Очистить HTML онлайн-инструмент для очистки слова HTML

...