Как я могу найти наибольшее значение R в квадрате для конкретной переменной (в Python)? - PullRequest
0 голосов
/ 05 июня 2018

В линейной модели y = a_0 + (a_1 × x_1) + (a_2 × x_2) + (a_3 × x_i) + ϵ, какое значение для i∈ [3,4,…, 100] приводит к модели ссамый высокий R-Squared?

С учетом файла CSV с одной зависимой и 100 независимых переменных.

1 Ответ

0 голосов
/ 06 июня 2018

Этот вопрос не имеет большого смысла.

Давайте посмотрим на определение коэффициента детерминации (то есть "R в квадрате"):

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

где sum(e_i) - сумма квадратов невязок, а s^2 - выборочная дисперсия.

Добавление все большего и большего числа предикторов потенциально сократит сумму квадратов невязок, но даст плохую прогнозирующую производительность из-зак переоснащению.

Поэтому критический вопрос здесь будет следующим: какие особенности (переменные) важны для вашей лучшей модели с высокой прогнозирующей эффективностью.

Этот вопрос будет выходить далеко за рамки SO (или любого другогодругой форум), и я рекомендую (любой) учебник по статистическому моделированию.

...