Разработка функций, обработка недостающих данных - PullRequest
0 голосов
/ 06 марта 2019

Рассмотрим эту таблицу данных

NumberOfAccidents   MeanDistance
1                   5
3                   0
0                   NA
0                   NA
6                   1.2
2                   0

первая функция - это число аварий, а вторая - среднее расстояние этих аварий до определенной точки. Это очевидно для записи с нулевым несчастным случаем, значение для MeanDistance не будет. Однако вменять эти пропущенные значения не логично!

МОЕ РЕШЕНИЕ: Я решил дискретизировать MeanDistance, где NAs - это уровень (ячейка), а остальные данные - в ячейках, например: [0,1), [1,2.5), [2.5, Inf). финальный стол будет выглядеть так:

NumberOfAccidents   NAs   first_bin   sec_bin     third_bin
1                   0     0           0           1
3                   0     1           0           0
0                   1     0           0           0
0                   1     0           0           0
6                   0     0           1           0
2                   0     1           0           0

Что вы думаете об этих типах пропущенных значений, которые не могут быть вменены? Каково ваше решение этой проблемы?

1 Ответ

1 голос
/ 06 марта 2019

Это действительно зависит от домена и того, что вы пытаетесь предсказать.Несмотря на то, что ваше решение в порядке, я бы не стал хранить остальные данные, как вы.Учитывая, что функция NumberOfAccidents уже говорит о том, что MeanDistance имеет NA значения, я, вероятно, просто вменю 0 в значения NA (для вычислений) и оставляю остальные данные такими, как есть.

Тем не менее, нет необходимости ограничивать себя, просто попробуйте разные подходы и оставьте тот, который повышает ваш KPI (ключевой показатель эффективности).

...