Гауссовская подгонка к гистограмме на питоне кажется выключенной. Что я могу изменить, чтобы улучшить посадку? - PullRequest
2 голосов
/ 08 октября 2019

Я создал гауссову подгонку к данным, представленным в виде гистограммы. Тем не менее, подгонка не выглядит правильно, и я не знаю, что изменить, чтобы улучшить подгонку. Мой код выглядит следующим образом:

import matplotlib.pyplot as plt
import math
import numpy as np
from collections import Counter
import collections
from scipy.optimize import curve_fit
from scipy.stats import norm
from scipy import stats
import matplotlib.mlab as mlab

k_list = [-40, -32, -30, -28, -26, -24, -22, -20, -18, -16, -14, -12, -10, -8, -6, -4, -3, -2, 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34]
v_list = [1, 2, 11, 18, 65, 122, 291, 584, 1113, 2021, 3335, 5198, 7407, 10043, 12552, 14949, 1, 16599, 16770, 16728, 14772, 12475, 9932, 7186, 4987, 3286, 1950, 1080, 546, 285, 130, 54, 18, 11, 2, 2]

def func(x, A, beta, B, mu, sigma):
    return (A * np.exp(-x/beta) + B * np.exp(-100.0 * (x - mu)**2 / (2 * sigma**2))) #Normal distribution

popt, pcov = curve_fit(func, xdata=k_list, ydata=v_list, p0=[10000, 5, 10000, 10, 10])
print(popt)


x = np.linspace(-50, 50, 1000)

plt.bar(k_list, v_list, label='myPLOT', color = 'b', width = 0.75)
plt.plot(x, func(x, *popt), color='darkorange', linewidth=2.5, label=r'Fitted function')

plt.xlim((-30, 45))
plt.legend()
plt.show()

График, который я получаю, выглядит следующим образом:

Bar plot with fitted Gaussian curve

Как мне отрегулировать мою посадку?

1 Ответ

4 голосов
/ 09 октября 2019

Здесь имеется значительный выброс, возможно, вызванный опечаткой: (k, v) == (-3, 1) в индексе 16 в данных.

enter image description here

Представлениеданные в виде гистограммы здесь не оптимальны. Эта проблема была бы четко видна, если бы вы отображали данные в том же формате, что и при подгонкеЛюбое из следующего будет работать лучше:

enter image description here

Выброс заставляет пик вниз. Вот соответствие, если мы удалим выброс вручную:

enter image description here

Вы можете автоматически удалить выброс, проверив его индивидуальный остаток по среднеквадратичной величине всей посадки:

popt, pcov = curve_fit(func, xdata=k_list, ydata=v_list, p0=[10000, 5, 10000, 10, 10])
resid = np.abs(func(k_list, *popt) - v_list)
rmse = np.std(resid)
keep = resid < 3 * rmse
if keep.sum() < keep.size:
     popt, pcov = curve_fit(func, xdata=k_list[keep], ydata=v_list[keep], p0=popt)

Или даже повторное приложение:

popt = [10000, 5, 10000, 10, 10]
while True:
    popt, pcov = curve_fit(func, xdata=k_list, ydata=v_list, p0=popt)
    resid = np.abs(func(k_list, *popt) - v_list)
    rmse = np.std(resid)
    keep = resid < 5 * rmse
    if keep.sum() == keep.size:
        break
    k_list = k_list[keep]
    v_list = v_list[keep]

Выделение в 3 сигмы обрежет все ваши данные после пары итераций, поэтому я использовал 5 сигм. Имейте в виду, что это очень быстрый и грязный способ уничтожения данных. Это действительно в основном руководство, так как вы должны перепроверить данные, чтобы убедиться, что вы выбрали правильный коэффициент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...