Энтропия Шеннона H (P) является свойством распределения вероятности P случайной величины X.
В случае строки элементарный способ обращения с ней - как мешок символов. В этом случае подсчет частоты обеспечивает приблизительное распределение вероятности P случайно выбранного символа в строке.
Если бы мы просто посчитали количество уникальных символов в строке, это соответствовало бы энтропии равномерного распределения количества уникальных символов, которые появляются в этой строке. И чем больше число уникальных персонажей, тем больше энтропия.
Однако последующие вклады в код Джеффа Этвуда (и BlueRaja) являются лучшими мерами, поскольку они учитывают другие возможные распределения, которые представляют собой строки; до сих пор считается сумкой (не обязательно уникальных) персонажей; представляет.
Опираясь на ответ Рекса М ... было бы более разумно искать строки, в которых «энтропия персонажа» выходила за пределы диапазона 1,0–1,5, как возможные «строки низкого качества».