Существуют ли какие-либо алгоритмы сжатия - с потерями или без потерь, которые были специально адаптированы для работы с реальным (грязным и недействительным) контентом HTML?
Если нет, какими характеристиками HTML мы могли бы воспользоваться, чтобы создать такой алгоритм? Каковы потенциальные улучшения производительности?
Кроме того, я не задаю вопрос о предоставлении такого контента (через Apache или любой другой сервер), хотя это, конечно, интересно, но хранить и анализировать его.
Обновление: я имею в виду не GZIP - это очевидно, а скорее алгоритм конкретно , разработанный для использования преимуществ характеристик содержимого HTML. Например, предсказуемый тег и древовидная структура.