Для гистограммы 100 бинов гауссовского распределения, сгенерированного pylab.hist, почему номера бинов 30 и 70 соответствуют примерно 2 стандартным отклонениям? - PullRequest
0 голосов
/ 29 января 2020

В настоящее время я изучаю открытый курс MIT 6.0002 Введение в курс компьютерного мышления и наук о данных по адресу:

https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/

В 7-й лекции на третьем слайде они проверяют эмпирическое правило, используя гистограмму случайно сгенерированного гауссовского распределения. Гистограмма имеет 100 интервалов, и все значения между интервалами 30 и 70 складываются вместе. Сложение этих значений представляет значения в пределах двух стандартных отклонений и составляет примерно 95%.

Однако я не понимаю, почему ячейки 30 и 70 соответствуют примерно двум стандартным отклонениям в этом примере. Я не смог бы предсказать, что 95% данных будут расположены в центре 40% бинов, сгенерированных этой гистограммой. Какова связь между номером корзины и стандартным отклонением? Является ли этот метод достаточно последовательным для использования на реальных данных?

Код для слайда использует python 3.5, и его можно найти ниже:

random.seed(1)
dist, numSamples = [], 1000000

for i in range(numSamples):
    #random.gauss(mean, stdev)
    dist.append(random.gauss(0, 100))

v = pylab.hist(dist, bins = 100,
               weights = [1/numSamples]*len(dist))

print('Fraction within ~200 of mean =',
      sum(v[0][30:70]))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...