Чтобы создать базовое дерево Хаффмана, вы должны сначала отсортировать список частот в порядке возрастания и начать с объединения первых двух элементов в отсортированном контейнере с элементами, создающими новый узел дерева Хаффмана, добавив новый узел в контейнер,прибегают к контейнеру, а затем продолжают процесс, пока контейнер не содержит только один узел: полное дерево.Чтобы пройти по дереву, вы можете создать метод поиска в классе, который создает путь 1
s и 0
s: 1
регистрируется, если искомое значение находится в правом дочернем элементе текущего узла,или 0
, если он слева:
from collections import Counter
def get_frequencies(data):
return sorted(Counter(data).items(), key=lambda x:x[-1])
class Node:
def __init__(self, _a, _b):
self.left, self._sum, self.right = _a, sum(i._sum if hasattr(i, '_sum') else i[-1] for i in [_a, _b]), _b
def __contains__(self, _val):
if isinstance(self.left, tuple) and self.left[-1] == _val or isinstance(self.right, tuple) and self.right[-1] == _val:
return True
return any([_val in self.left, _val in self.right])
def _lookup(self, chr, _path = []):
if isinstance(self.left, tuple) and self.left[-1] == chr:
return _path+[0]
if isinstance(self.right, tuple) and self.right[-1] == chr:
return _path+[1]
_flag = 'right' if chr in self.right else 'left'
return getattr(getattr(self, _flag), '_lookup', lambda _, p:p)(chr, _path+[1 if _flag == 'right' else 0])
def __getitem__(self, chr):
return self._lookup(chr)
corpus = "Huffman code is a particular type of optimal prefix code that is commonly used for lossless data compression. The process of finding and/or using such a code proceeds by means of Huffman coding, an algorithm developed by David A. Huffman while he was a Sc.D. student at MIT"
fs = get_frequencies(corpus)
while len(fs) > 1:
a, b, *_fs = fs
fs = sorted(_fs+[Node(a, b)], key=lambda x:x._sum if hasattr(x, '_sum') else x[-1])
_tree = fs[0]
final_result = ''.join(''.join(map(str, _tree[i])) for i in corpus)
Вывод:

Окончательный сжатый результат генерируется путем зацикливания исходного ввода (corpus
) и поискакодирование Хаффмана для каждого символа через Node.__getitem__
.