Как сравнить результаты разных статистических тестов? - PullRequest
0 голосов
/ 24 августа 2018

Я не знаю, хороший это вопрос или нет.

Вот случай, скажем, у меня есть переменная, зависящая от масштаба / непрерывности, и набор независимых переменных. Моя конечная цель - построить модель для прогнозирования / оценки зависимой переменной с использованием этих независимых переменных. Я считаю, что это обычная обстановка.

Суть в том, что я знаю физический смысл всех переменных, но я не знаю их детальной взаимосвязи (или даже связанной или нет). Я хочу построить модель больше с точки зрения анализа / объяснения, чтобы я мог получить представление о модели из реальной жизни вместо черного ящика.

Мой подход заключается в попытке использовать алгоритм типа CHAID для построения модели дерева решений. В каждой ветви я хочу статистически проверить каждую независимую переменную, чтобы увидеть, есть ли связь между ней и зависимой переменной. Затем, основываясь на результатах теста, я хочу выбрать самый мощный для построения моего дерева.

Проблема, в отличие от алгоритма CHAID, где большинство переменных являются категориальными, в моем случае зависимая переменная - это масштаб, а независимые переменные - категориальные или масштабные, что означает, что мне может потребоваться провести различные статистические тесты для разных переменных, например, t-критерий и ANOVA для категориальных и регрессия для непрерывных. Мне интересно, как мне честно сравнить эти результаты, чтобы выбрать самый мощный? (как шаг коррекции в CHAID)

Любая идея в любой части моего плана очень важна для меня! Спасибо!

...