Рассмотрим эту таблицу данных
NumberOfAccidents MeanDistance
1 5
3 0
0 NA
0 NA
6 1.2
2 0
первая функция - это число аварий, а вторая - среднее расстояние этих аварий до определенной точки. Это очевидно для записи с нулевым несчастным случаем, значение для MeanDistance
не будет. Однако вменять эти пропущенные значения не логично!
МОЕ РЕШЕНИЕ: Я решил дискретизировать MeanDistance
, где NAs
- это уровень (ячейка), а остальные данные - в ячейках, например: [0,1), [1,2.5), [2.5, Inf)
. финальный стол будет выглядеть так:
NumberOfAccidents NAs first_bin sec_bin third_bin
1 0 0 0 1
3 0 1 0 0
0 1 0 0 0
0 1 0 0 0
6 0 0 1 0
2 0 1 0 0
Что вы думаете об этих типах пропущенных значений, которые не могут быть вменены?
Каково ваше решение этой проблемы?