Инструменты для уменьшения размера сгенерированного HTML - PullRequest
0 голосов
/ 19 января 2009

Я использую Google Docs, и некоторые используемые нами шаблоны были созданы с использованием MS-Office.
Получающийся в результате HTML толстый и безобразный, и ограничение в 500 Кбайт на документ в Google делает некоторую очистку обязательной. Мне удалось найти избыточные атрибуты «стиля» и переместить их в какой-то класс CSS, а также переименовать имена самых избыточных классов в более короткие, что позволило мне сэкономить около 50% исходного размера. Вам известны какие-нибудь существующие инструменты / scripts / lib, которые могут сделать эту болезненную работу для меня или, по крайней мере, помочь мне написать этот волшебный инструмент?

Заранее спасибо!

РЕДАКТИРОВАТЬ: я дал попробовать и приборку, деморонизатор и "переписать вручную":
- Вход: 140Kb
- Tidy'ed: 110Kb
- деморонизировано: 135Kb

Так что мой любимый ответ будет "переписать его!"

Спасибо!

Ответы [ 4 ]

3 голосов
/ 19 января 2009

MS-Office делает дерьмовый HTML, точка. Вам лучше потратить время на восстановление HTML из исходного текста, чем пытаться пройти через это минное поле.

Я сделал несколько макросов, которые выполняют некоторые функции поиска / замены в Word, чтобы выполнять такие базовые функции, как обтекание <p> тегов вокруг абзацев и тому подобное, а затем заново разметить все с нуля.

3 голосов
/ 19 января 2009

Вы можете попробовать привести в порядок это очистит многие вещи.

0 голосов
/ 08 сентября 2009

Одной из моих любимых утилит сейчас является Windows Live Writer - она ​​делает аккуратную работу по удалению мусора из документов Word. Некоторые могут не согласиться, но я использую это довольно часто!

0 голосов
/ 20 января 2009

Не комментируя его название, я мог бы упомянуть demoronizer , который автор описывает как:

... Perl-программа, доступная для загрузки с этого сайта, которая исправляет многочисленные ошибки и несовместимости в HTML, создаваемые или редактируемые приложениями Microsoft.

YMMV.

...