Как создать двоичное дерево из частотного словаря - PullRequest
2 голосов
/ 07 марта 2019

Я довольно новичок в кодировании, и мне трудно создать алгоритм Хаффмана для кодирования и декодирования текстовых файлов.Я довольно хорошо понимаю большинство концепций, но не очень много о том, как именно вы будете создавать и обходить дерево.

Вот мой код:

with open(input('enter a file: ')) as name:
    fh = name.read()
    print(fh)

#create the frequency dicitonary
freqdict = {}
for ch in fh:
    if ch in freqdict:
        freqdict[ch] += 1
    else:
        freqdict[ch] = 1
freqdict = sorted(freqdict.items(), key = lambda x: 
x[1], reverse = True)
print(freqdict)

class Node:
    def __init__(self, left = None, right = None, 
data):
        self.left = left
        self.right = right
        self.data = data

    def children(self):
        return (self.left, self.right)

    def nodes(self):
        return (self.left, self.right)

    def __str__(self):
        return str(self.left, self.right)

1 Ответ

0 голосов
/ 08 марта 2019

Чтобы создать базовое дерево Хаффмана, вы должны сначала отсортировать список частот в порядке возрастания и начать с объединения первых двух элементов в отсортированном контейнере с элементами, создающими новый узел дерева Хаффмана, добавив новый узел в контейнер,прибегают к контейнеру, а затем продолжают процесс, пока контейнер не содержит только один узел: полное дерево.Чтобы пройти по дереву, вы можете создать метод поиска в классе, который создает путь 1 s и 0 s: 1 регистрируется, если искомое значение находится в правом дочернем элементе текущего узла,или 0, если он слева:

from collections import Counter
def get_frequencies(data):
  return sorted(Counter(data).items(), key=lambda x:x[-1])

class Node:
  def __init__(self, _a, _b):
    self.left, self._sum, self.right = _a, sum(i._sum if hasattr(i, '_sum') else i[-1] for i in [_a, _b]), _b
  def __contains__(self, _val):
    if isinstance(self.left, tuple) and self.left[-1] == _val or isinstance(self.right, tuple) and self.right[-1] == _val:
      return True
    return any([_val in self.left, _val in self.right])
  def _lookup(self, chr, _path = []):
    if isinstance(self.left, tuple) and self.left[-1] == chr:
      return _path+[0]
    if isinstance(self.right, tuple) and self.right[-1] == chr:
      return _path+[1]
    _flag = 'right' if chr in self.right else 'left'
    return getattr(getattr(self, _flag), '_lookup', lambda _, p:p)(chr, _path+[1 if _flag == 'right' else 0])
  def __getitem__(self, chr):
     return self._lookup(chr)

corpus = "Huffman code is a particular type of optimal prefix code that is commonly used for lossless data compression. The process of finding and/or using such a code proceeds by means of Huffman coding, an algorithm developed by David A. Huffman while he was a Sc.D. student at MIT"
fs = get_frequencies(corpus)
while len(fs) > 1:
  a, b, *_fs = fs
  fs = sorted(_fs+[Node(a, b)], key=lambda x:x._sum if hasattr(x, '_sum') else x[-1])

_tree = fs[0]
final_result = ''.join(''.join(map(str, _tree[i])) for i in corpus)

Вывод:



Окончательный сжатый результат генерируется путем зацикливания исходного ввода (corpus) и поискакодирование Хаффмана для каждого символа через Node.__getitem__.

...