Разница в том, насколько приемлем для столбца, прежде чем мы можем использовать переменную столбца для моделирования? - PullRequest
1 голос
/ 26 марта 2019

Я пытаюсь создать модель классификации.Во время предварительной обработки данных.Я смотрю на дисперсию в каждом столбце.Это количество отклонений в каждом столбце.Я запутался в том, какие столбцы я должен преобразовать перед моделированиемКакая разница приемлема?Может кто-нибудь, пожалуйста, пролить свет на это, пожалуйста.

Temparature     2.318567e-01
HR              4.747868e+02
SpO2            1.179291e+01
SBP             6.263887e+02
MAP             2.905884e+02
RR              2.794205e+01
FiO2            9.061920e+00
PaO2            1.327011e+03
PaCO2           7.466527e+01
pH              4.851681e-03
A.a.gradient    0.000000e+00
HCO3            1.358290e+01
Hb              5.337076e+00
TLC             6.326940e+07
Platelets       1.062145e+10
K               3.332203e-01
Na              4.429681e+01
Serum.Cr        1.897277e+00
Blood.Urea      7.321509e+02
Bili            3.352918e+00
Urine.output    5.157271e+05
Lactate         3.795719e+00
INR             5.362644e-01
dtype: float64

Ответы [ 2 ]

0 голосов
/ 26 марта 2019

Я бы сказал, что это зависит от того, какие у вас приоритеты в данных. Не существует «приемлемого диапазона отклонений», если он не связан с контекстом.

В целях классификации лучше всего тренироваться на как можно большем количестве образцов, но вы хотите оставить некоторые для проверки, как предложила @desertnaut. нижняя строка: я бы взял верхние (скажем) 80% большинства переменных столбцов и лог преобразовал бы их. Остальные 20% останутся для проверки.

0 голосов
/ 26 марта 2019

Я бы сказал, что просмотр только дисперсии столбцов в основном полезен для удаления столбцов с дисперсией 0.

Если ваш столбец имеет хотя бы минимальную дисперсию, вы не сможете сделать вывод, что столбец бесполезен без дальнейшего исследования.

...