Интерпретация нормализации - PullRequest
       64

Интерпретация нормализации

0 голосов
/ 24 сентября 2019

1.) В случае линейной регрессии, когда зависимая переменная нормализуется (y - мин / диапазон), варьируя ее в диапазоне от 0 до 1, можно ли интерпретировать выходные данные модели как вероятности?

Например,если моя зависимая переменная (y) нормализована, и я подгоняю модель линейной регрессии с числовыми признаками / предикторами, прогнозы (y_hat) также будут в диапазоне 0-1.Мой вопрос заключается в том, могу ли я интерпретировать этот прогноз как вероятности.Значение> = 0,5 = успех, а <0,5 = отказ. </p>

2.) Другой сценарий: если и мои зависимые, и независимые переменные стандартизированы ((значение-мин) / диапазон) в модели линейной регрессии, какинтерпретировать вывод модели?

3.) Я разработал модель линейной регрессии с нормализованной (y-min / range) зависимой переменной и стандартизированными (x-mean / SD) характеристиками / ковариатами.Когда я тестирую эту модель в новом наборе данных, не используемом для обучения модели, нужно ли мне также стандартизировать функции / ковариаты в данных тестирования?

Кроме того, как мне интерпретировать выходные данные модели?

4.) Если как зависимая (Y), так и независимая переменная (X) стандартизированы (x-mean / SD), как интерпретируется модель?

1 Ответ

0 голосов
/ 24 сентября 2019
  1. , вероятно, нет, обычные линейные регрессии / OLS переходят от -Inf к + Inf, поэтому вы хотите использовать обобщенную линейную регрессию, параметризованную соответствующим «семейством», которое обеспечивает «связь» между+ -Inf мир линейных регрессий и ваше [0,1] пространство вероятностей.Для этого случая R предоставляет "квазибиномиальное" семейство и использует для этого функцию logit .

  2. зависит ... почему вы "стандартизируете"?это не нужно, как вы бы сделали с нейронной сетью.все в модели спроектировано так, чтобы быть хорошо выпуклым и, следовательно, легко оптимизируемым.NN, как правило, не являются выпуклыми, и, следовательно, их гораздо сложнее оптимизировать, поэтому проводится нормализация / стандартизация, чтобы помочь прогнозам в 100 * *

  3. , чтобы вы могли понять, что вам, вероятно, нужно отслеживать преобразование.(т. е. функции и параметры), используемые с исходными / обучающими данными и применяйте их к данным испытаний.если вы стандартизируете использование min / range из тестового набора данных, вы, вероятно, будете поступать неправильно.Тем не менее, существуют ситуации, когда обратное утверждение верно, я бы посоветовал вам поработать над математикой, чтобы посмотреть, как она применима к вашей ситуации

  4. , как и выше, только что переместился вокругнемного.коэффициенты теперь просто в терминах SD от среднего значения, но, опять же, вероятно, легче работать с единицами, которые помогают интерпретации

https://stats.stackexchange.com может быть лучшим местом для этих видоввопросы ... * * 1023

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...