В настоящее время я изучаю открытый курс MIT 6.0002 Введение в курс компьютерного мышления и наук о данных по адресу:
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/
В 7-й лекции на третьем слайде они проверяют эмпирическое правило, используя гистограмму случайно сгенерированного гауссовского распределения. Гистограмма имеет 100 интервалов, и все значения между интервалами 30 и 70 складываются вместе. Сложение этих значений представляет значения в пределах двух стандартных отклонений и составляет примерно 95%.
Однако я не понимаю, почему ячейки 30 и 70 соответствуют примерно двум стандартным отклонениям в этом примере. Я не смог бы предсказать, что 95% данных будут расположены в центре 40% бинов, сгенерированных этой гистограммой. Какова связь между номером корзины и стандартным отклонением? Является ли этот метод достаточно последовательным для использования на реальных данных?
Код для слайда использует python 3.5, и его можно найти ниже:
random.seed(1)
dist, numSamples = [], 1000000
for i in range(numSamples):
#random.gauss(mean, stdev)
dist.append(random.gauss(0, 100))
v = pylab.hist(dist, bins = 100,
weights = [1/numSamples]*len(dist))
print('Fraction within ~200 of mean =',
sum(v[0][30:70]))