Question

Я изучил вопрос Графики распределения наилучшего соответствия и обнаружил, что в ответах использовался критерий Колмогорова-Смирнова для нахождения распределения наилучшего соответствия. Я также узнал, что есть тест Андерсона-Дарлинга, который также используется для получения наилучшего распределения соответствия. Итак, у меня есть несколько вопросов:

Вопрос 1:

Если я хочу объединить оба теста, как я могу это сделать? Какие параметры лучше всего использовать для поиска наиболее подходящего распределения? Вот моя попытка объединить оба теста.

from statsmodels.stats.diagnostic import anderson_statistic as adtest
def get_best_distribution(data):
    dist_names = ['alpha', 'anglit', 'arcsine', 'beta', 'betaprime', 'bradford', 'burr', 'cauchy', 'chi', 'chi2', 'cosine', 'dgamma', 'dweibull', 'erlang', 'expon', 'exponweib', 'exponpow', 'f', 'fatiguelife', 'fisk', 'foldcauchy', 'foldnorm', 'frechet_r', 'frechet_l', 'genlogistic', 'genpareto', 'genexpon', 'genextreme', 'gausshyper', 'gamma', 'gengamma', 'genhalflogistic', 'gilbrat',  'gompertz', 'gumbel_r', 'gumbel_l', 'halfcauchy', 'halflogistic', 'halfnorm', 'hypsecant', 'invgamma', 'invgauss', 'invweibull', 'johnsonsb', 'johnsonsu', 'ksone', 'kstwobign', 'laplace', 'logistic', 'loggamma', 'loglaplace', 'lognorm', 'lomax', 'maxwell', 'mielke', 'moyal', 'nakagami', 'ncx2', 'ncf', 'nct', 'norm', 'pareto', 'pearson3', 'powerlaw', 'powerlognorm', 'powernorm', 'rdist', 'reciprocal', 'rayleigh', 'rice', 'recipinvgauss', 'semicircular', 't', 'triang', 'truncexpon', 'truncnorm', 'tukeylambda', 'uniform', 'vonmises', 'wald', 'weibull_min', 'weibull_max', 'wrapcauchy']
    dist_ks_results = []
    dist_ad_results = []
    params = {}
    for dist_name in dist_names:
        dist = getattr(st, dist_name)
        param = dist.fit(data)
        params[dist_name] = param

        # Applying the Kolmogorov-Smirnov test
        D_ks, p_ks = st.kstest(data, dist_name, args=param)
        print("Kolmogorov-Smirnov test Statistics value for " + dist_name + " = " + str(D_ks))
        # print("p value for " + dist_name + " = " + str(p_ks))
        dist_ks_results.append((dist_name, p_ks))

        # Applying the Anderson-Darling test:
        D_ad = adtest(x=data, dist=dist, fit=False, params=param)
        print("Anderson-Darling test Statistics value for " + dist_name + " = " + str(D_ad))
        dist_ad_results.append((dist_name, D_ad))

        print(dist_ks_results)
        print(dist_ad_results)

        for D in range (len(dist_ks_results)):
           KS_D = dist_ks_results[D][1]
           AD_D = dist_ad_results[D][1]
           if KS_D < 0.25 and AD_D < 0.05:
                best_ks_D = KS_D
                best_ad_D = AD_D
                if dist_ks_results[D][1] == best_ks_D:
                   best_ks_dist = dist_ks_results[D][0]
                if dist_ad_results[D][1] == best_ad_D:
                   best_ad_dist = dist_ad_results[D][0]

            print(best_ks_D)
            print(best_ad_D)
            print(best_ks_dist)
            print(best_ad_dist)

            print('\n################################ Kolmogorov-Smirnov test parameters #####################################')
            print("Best fitting distribution (KS test): " + str(best_ks_dist))
            print("Best test Statistics value (KS test): " + str(best_ks_D))
            print("Parameters for the best fit (KS test): " + str(params[best_ks_dist])
            print('################################################################################\n')
            print('################################ Anderson-Darling test parameters #########################################')
            print("Best fitting distribution (AD test): " + str(best_ad_dist))
            print("Best test Statistics value (AD test): " + str(best_ad_D))
            print("Parameters for the best fit (AD test): " + str(params[best_ad_dist]))
            print('################################################################################\n')

Вопрос 2:

Как я могу получить p-значение для теста Андерсона-Дарлинга?

Вопрос 3:

Скажите, что мне удалось получить наиболее подходящий дистрибутив, как можно ранжировать распределения на основе тестов? как на фото ниже.

Тесты на соответствие требованиям с рейтингом

Редактировать 1

Я не уверен, но является ли normal_ad из общего теста Андерсона-Дарлинга statsmodel для какого-либо непрерывного распределения вероятности? Если да, я бы хотел выбрать общий дистрибутив для обоих тестов. Если я выполню те же шаги, что и в вопросе 1, будет ли это правильным подходом? Также, скажем, если я хочу найти наибольшее значение p, и оно является общим в обоих тестах, как я могу извлечь общее имя распределения с помощью значений p?

def get_best_distribution(data, sensor_no):
dist_names = ['beta', 'bradford', 'burr', 'cauchy', 'chi', 'chi2', 'erlang', 'expon', 'f', 'fatiguelife', 'fisk', 'gamma', 'genlogistic', 'genpareto', 'invgauss', 'johnsonsb', 'johnsonsu', 'laplace', 'logistic', 'loggamma', 'loglaplace', 'lognorm', 'maxwell', 'mielke', 'norm', 'pareto', 'reciprocal', 'rayleigh', 't', 'triang', 'uniform', 'weibull_min', 'weibull_max']
dist_ks_results = []
dist_ad_results = []
params = {}
for dist_name in dist_names:
    dist = getattr(st, dist_name)
    param = dist.fit(data)
    params[dist_name] = param

    # Applying the Kolmogorov-Smirnov test
    D_ks, p_ks = st.kstest(data, dist_name, args=param)
    print("Kolmogorov-Smirnov test Statistics value for " + dist_name + " = " + str(D_ks))
    print("p value (KS test) for " + dist_name + " = " + str(p_ks))
    dist_ks_results.append((dist_name, p_ks))

    # Applying the Anderson-Darling test:
    D_ad, p_ad = adnormtest(x=data, axis=0)
    print("Anderson-Darling test Statistics value for " + dist_name + " = " + str(D_ad))
    print("p value (AD test) for " + dist_name + " = " + str(p_ad))
    dist_ad_results.append((dist_name, p_ad))

# select the best fitted distribution:
best_ks_dist, best_ks_p = (max(dist_ks_results, key=lambda item: item[1]))
best_ad_dist, best_ad_p = (max(dist_ad_results, key=lambda item: item[1]))

print('\n################################ Kolmogorov-Smirnov test parameters #####################################')
print("Best fitting distribution (KS test) :" + str(best_ks_dist))
print("Best p value (KS test) :" + str(best_ks_p))
print("Parameters for the best fit (KS test) :" + str(params[best_ks_dist]))
print('###########################################################################################################\n')
print('################################ Anderson-Darling test parameters #########################################')
print("Best fitting distribution (AD test) :" + str(best_ad_dist))
print("Best p value (AD test) :" + str(best_ad_p))
print("Parameters for the best fit (AD test) :" + str(params[best_ad_dist]))
print('###########################################################################################################\n')
if best_ks_dist == best_ad_dist:
    best_common_dist = best_ks_dist
    print('##################################### Both test parameters ############################################')
    print("Best fitting distribution (Both test) :" + str(best_common_dist))
    print("Best p value (KS test) :" + str(best_ks_p))
    print("Best p value (AD test) :" + str(best_ad_p))
    print("Parameters for the best fit (Both test) :" + str(params[best_common_dist]))
    print('###########################################################################################################\n')
    return best_common_dist, best_ks_p, params[best_common_dist]

Michael Baudin · Answer 1 · 01 мая 2020

Вопрос 2. может быть решен с помощью класса NormalityTest.AndersonDarlingNormal:

import openturns as ot
distribution = ot.Normal()
sample = distribution.getSample(100)
test_result = ot.NormalityTest.AndersonDarlingNormal(sample)
print(test_result.getPValue())

Это печатает:

0.8267360272974381

API задокументировано на странице справки функция , там пример и теория документирована здесь .

Michael Baudin · Answer 2 · 30 апреля 2020

Вопрос 3 легко решить с помощью OpenTURNS . Я обычно ранжирую распределения с байесовским информационным критерием, потому что он позволяет ранжировать как лучшие распределения с меньшим количеством параметров.

В следующем примере я создаю гауссовский дистрибутив и генерирую из него образец. Затем я вычисляю оценки BI C с помощью функции FittingTest.BIC для 30 распределений в библиотеке. Затем я использую функцию np.argsort, чтобы получить отсортированные индексы и распечатать результаты.

import openturns as ot
import numpy as np
# Generate a sample
distribution = ot.Normal()
sample = distribution.getSample(100)
tested_factories = ot.DistributionFactory.GetContinuousUniVariateFactories()
nbmax = len(tested_factories)
# Compute BIC scores
bic_scores = []
names = []
for i in range(nbmax):
    factory = tested_factories[i]
    names.append(factory.getImplementation().getClassName())
    try:
        fitted_dist, bic = ot.FittingTest.BIC(sample, factory)
    except:
        bic = np.inf
    bic_scores.append(bic)
# Sort the scores
indices = np.argsort(bic_scores)
# Print result
for i in range(nbmax):
    factory = tested_factories[i]
    name = factory.getImplementation().getClassName()
    print(names[indices[i]], ": ", i, bic_scores[indices[i]])

Это дает:

NormalFactory :  0 2.902476153791324
TruncatedNormalFactory :  1 2.9391403094910493
LogisticFactory :  2 2.945101831314491
LogNormalFactory :  3 2.948479498106734
StudentFactory :  4 2.9487326727806438
WeibullMaxFactory :  5 2.9506160993704653
WeibullMinFactory :  6 2.9646030668970464
TriangularFactory :  7 2.9683050343363897
TrapezoidalFactory :  8 2.970676202179786
BetaFactory :  9 3.033244379700322
RayleighFactory :  10 3.0511170157342207
LaplaceFactory :  11 3.0641174552986796
FrechetFactory :  12 3.1472260896504327
UniformFactory :  13 3.1551588725784927
GumbelFactory :  14 3.1928562445001263
HistogramFactory :  15 3.3881831435932748
GammaFactory :  16 3.3925823197940552
ExponentialFactory :  17 3.824030948338899
ArcsineFactory :  18 214.7536151046246
ChiFactory :  19 680.8835152447839
ChiSquareFactory :  20 683.6769102883109
FisherSnedecorFactory :  21 inf
LogUniformFactory :  22 inf
GeneralizedParetoFactory :  23 inf
RiceFactory :  24 inf
DirichletFactory :  25 inf
BurrFactory :  26 inf
InverseNormalFactory :  27 inf
MeixnerDistributionFactory :  28 inf
ParetoFactory :  29 inf

Существуют распределения, которые не могут быть помещены в этот образец. В этих дистрибутивах я установил для BI C значение INF и обернул исключение в попытку / исключение.

Как выбрать наилучшее непрерывное распределение из двух тестов на соответствие?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выбрать наилучшее непрерывное распределение из двух тестов на соответствие?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы