Я не знаю о готовой библиотеке сжатия явно , оптимизированной для содержимого HTML .
Тем не менее, HTML-текст должен хорошо сжиматься с помощью универсальных алгоритмов (прочитайте основание этого ответа для лучших алгоритмов). Как правило, все варианты Lempel-Ziv хорошо работают на HTML-подобных языках благодаря высокой повторяемости определенных языковых идиом; GZip , который часто цитируется, использует такой алгоритм на основе LZ (я думаю, LZ77).
Идея, возможно, улучшить эти универсальные алгоритмы состояла бы в том, чтобы заполнить круговой буфер типа LZ наиболее распространенными html-тегами и шаблонами в целом. Таким образом, мы уменьшили бы сжатый размер, используя цитаты из самого первого экземпляра такого шаблона. Это усиление будет особенно чувствительным для небольших HTML-документов.
Дополнительная, похожая идея состоит в том, чтобы методы сжатия и распаковки подразумевали (то есть не отправляли) информацию для другого алгоритма сжатия алгоритма LZ-x (скажем, дерево Хаффмана в случае LZH и т. Д.) при статистике, характерной для типичного HTML, следует тщательно исключать из символов подсчет [статистически взвешенных] экземпляров символов, закодированных цитатой. Такое отфильтрованное распределение символов, вероятно, станет ближе к обычному английскому (или национальному языку целевых веб-сайтов), чем к полному тексту HTML.
Не имея отношения к вышеизложенным [образованным, я надеюсь] догадкам, я начал искать в Интернете информацию по этой теме.
'нашел это 2008 научная статья (формат pdf) Пшемыслава Скибинского из Вроцлавского университета. Аннотация статьи указывает на улучшение на 15% по сравнению с GZIP при сопоставимой скорости сжатия .
В противном случае я могу искать не в том месте. Кажется, нет особого интереса к этому. Может случиться так, что дополнительный выигрыш, по сравнению с простым или умеренно настроенным универсальным алгоритмом, не считался достаточным для того, чтобы оправдать такой интерес, даже в первые дни сотовых телефонов с поддержкой Интернета (когда пропускная способность была довольно высокой). .).