Сжатие нескольких HTML-страниц с использованием древовидной кодировки - PullRequest
0 голосов
/ 19 октября 2019

Я заметил, что кодирование Хаффмана можно использовать для сжатия строк путем создания дерева.

Но мне было интересно ... это также можно применить к HTML-страницам?

Представьте, что вы хотитесжать весь домен или страницы с течением времени. Многие узлы будут повторяться с течением времени (поскольку страницы не меняются), и многие страницы содержат перекрывающиеся узлы. На разной высоте в своих деревьях.

<div>
   menu
   <ul>
      <li>some</li>
      <li>some</li>
      <li>another</li>
   </ul>
</div>

Пример HTML может, возможно, создать элемент из каждого узла HTML (<li>some</li> встречается дважды), возможно, весь <ul> может быть выражен как одинэлемент, или, возможно, он даже окупается, чтобы закодировать весь этот текст как единый элемент, если есть больше страниц, которые содержат именно это.

Поэтому мне было интересно, как можно применить кодирование Хаффмана к этой проблеме?

...