Выбрать элементы из списка на основе распределения - PullRequest
0 голосов
/ 17 июня 2020

У меня есть список, содержащий числа, которые сильно отличаются друг от друга:

[85, 1966, 1135, 1602, 1225, 35460, 829, 12532, 1923, 4091, 113 , 7592, 2011, 2179, 886, 18451, 3069, 6400, 9228, 1215, 5, 6484, 1947, 786, 21121, 28, 9917, 24747, 20798, 36051, 16670, 169, 4497, 32262, 33, 25348 , 19127, 1354, 26]

Есть ли возможность извлечь только 10 элементов, но эти элементы должны быть как можно более репрезентативными в отношении распределения начальных значений?

Мне не хватает математических знаний, поэтому я пока ничего не пробую. Потому что понятия не имею, с чего начать.

1 Ответ

1 голос
/ 17 июня 2020

Может быть очень разное распределение со случайностью в данных. То есть 10 чисел не могут правильно представить весь список чисел. Однако вы можете попробовать сначала sort список и равномерно sample 10 чисел из списка с тем же интервалом. Как вы могли заметить, этот подход случайно сообщает вам, находятся ли ваши данные в равномерном распределении или нет. Если нет, вы можете сказать, есть ли асимметрия данных влево или вправо. Это в некоторой степени предоставит вам информацию.

Помимо наивных подходов, я рекомендую изучать их свойства с помощью таких статистических данных, как среднее значение, режим, медиана, минимум, максимум, квантили и т. Д. c. с использованием функции describe из пакета pandas - это где-то начало.

...