Что подразумевается под max (count) * fit / max (fit)? Какой термин должен соответствовать? - PullRequest
1 голос
/ 09 марта 2020

В docs.scipy.org есть код для генерации распределения по Парето. Я мог понять большую часть фрагмента кода, за исключением использования термина «соответствие» для PDF (функция плотности вероятности) и формулы: max (количество) * соответствие / max (соответствие)

Вот фрагмент кода:

import matplotlib.pyplot as plt
a, m = 3., 2.  # shape and mode
s = (np.random.pareto(a, 1000) + 1) * m
count, bins, _ = plt.hist(s, 100, normed=True)
fit = a*m**a / bins**(a+1)
plt.plot(bins, max(count)*fit/max(fit), linewidth=2, color='r')
plt.show()

Я тщательно искал в Интернете формулу: max (count) * fit / max (fit) Даже заменил термин «fit» на pdf. Но не мог получить никаких потенциальных клиентов. Пожалуйста, объясните концепцию того, что передает формула.

Я предположил, что термин «подходит» используется вместо PDF, поскольку они используют формулу PDF для распределения Парето для соответствия.

Наконец, что подчеркивает '_' в коде:

count, bins, _ = plt.hist(s, 100, normed=True)

1 Ответ

1 голос
/ 09 марта 2020

np.random.pareto др aws случайные выборки из распределения Парето-II. Таким образом, результирующие данные - это реализации из этого распределения, а не плотность вероятности распределения.

При вызове plt.hist мы используем аргумент normed=True. Это нормализует данные и отображает плотность наших выборок по оси Y, а не частоту.

Затем мы будем sh, чтобы согласовать распределение Парето с нашими случайно выбранными данными и нанесите это распределение поверх наших данных.

Для этого мы начнем с вычисления плотности вероятности распределения Парето при значениях x, определенных bins, с параметрами a и m. Это наше определение соответствия: fit = a*m**a / bins**(a+1).

Необходимость термина max(count) * fit / max(fit) немного более неуловима. Я думаю, понятно, почему мы включили fit в команду построения, но почему соотношение max(count) / max(fit)? На самом деле, я не уверен на 100%.

max(count) / max(fit) похоже, что это может быть поправкой смещения от подгонки распределения Парето к нашим данным.

...