какая часть чисел обладает большей энтропией? - PullRequest
2 голосов
/ 01 июня 2009

При заданной последовательности чисел N 1 , N 2 , N 3 ... из какого-то источника, не ГСЧ, но говорят датчик или регистрация данных какого-либо рода, можно ли предположить, что обрабатывать это так

Nn/ B = Q n Rem Mn

приведет к тому, что последовательность Q будет иметь меньшую энтропию, чем последовательность M?

Примечание: предположим, что B таков, что и Q, и M имеют одинаковый размерный диапазон.


Это связано с наблюдением того, что большинство наборов данных реального мира, независимо от их источника, имеют логарифмическое распределение ; числа, начинающиеся с 1, встречаются гораздо чаще, чем числа, начинающиеся с 9. Но это мало говорит о деталях младшего разряда.

для забавного способа проверить это (и разозлить вашего системного администратора, загромождая его компьютер), запустите это в bash:

 ll -R 2>/dev/null | grep -v -e "^\./" | sed "s/[-rdwxlp]*\W*[0-9]*\W*[a-z]*\W*[a-z]*\W*\([0-9]\).*/\1/" | sort | uniq -c

и получите гистограмму первой цифры размеров файлов.

1 Ответ

1 голос
/ 01 июня 2009

Это зависит от последовательности. Например, возьмите [1 * 7 = 7, 3 * 7 = 21, 6 * 7 = 42 ... (2 * N - 1) * 7] и B = 7. Qn будет [1, 3, 6, ... 2 * N - 1] и Mn будет 0 всегда. Обычно энтропия для Q будет меньше, поскольку это похоже на сдвиг некоторых битов, но это не всегда так.

И, конечно, это не сработает, особенно для данных, поступающих из (P) RNG, поскольку диапазон для Qn будет таким же, как диапазон для Mn, и для обоих чисел (почти) распределены одинаково. *

...