Многофакторная проверка гипотез ненормальных данных - PullRequest
0 голосов
/ 07 октября 2019

У меня есть 3 NoN-Normal Multivariate наборов данных. Один из них является оригинальным, а два других синтезированы с использованием метода smote, а также модели гауссовой модели смешения путем изучения комбинаций распределения вероятностей по ним.

Data_Original-> 76 строк и 28 столбцов

Data_Smote-> 10000 строк и 28 столбцов

Data_Gaussian-> 10000 строк и 28 столбцов

У меня есть3 вопроса: -

1) Как найти дивергенцию KL между любыми двумя парами наборов данных, которые являются НЕ-нормальными, а также многовариантными (реализация Python)

2) Какие еще методы я могу использовать, чтобы найти близость сгенерированных данных (Data_Smote, Data_Original) с исходными данными (Data_Original). В Python существующие методы являются тестом павлина, но я могу найти его для набора функций максимум из 3 (реализация Pyhton)

3) Как интерпретировать мои нижеупомянутые результаты

Какие методы япротестировали: -

1) Тест на пригодность, такой как тест Андерсона Дарлинга и KS (для всех функций по отдельности): - Результаты Все переменные имеют Значимые P-значения, соответствующие исходному набору данных для обоих сгенерированных данных. устанавливает

2) Тест среднего значения: - Для всех переменных по отдельности и в этом также Все функции имеют S-значимые значения P

3) Тест дисперсии (Fligner и Levene): - ДляВсе переменные индивидуально, в этом функции Data_GMM проходят тест со значительным p-значением, но для For__Smote они терпят неудачу

...