Заполните пропущенные значения в наборе данных - PullRequest
0 голосов
/ 24 октября 2019

У меня есть набор данных, как показано ниже.

building_id meter   meter_reading   primary_use square_feet air_temperature dew_temperature sea_level_pressure  wind_direction  wind_speed  hour    day weekend month
0            0  0   NaN 0   7432    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
1            1  0   NaN 0   2720    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
2            2  0   NaN 0   5376    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
3            3  0   NaN 0   23685   25.0    20.0    1019.7  0.0 0.0 0   1   4   1
4            4  0   NaN 0   116607  25.0    20.0    1019.7  0.0 0.0 0   1   4   1

Вы можете видеть, что значения в meter_reading - это Nan, и я хотел бы заполнить его значениями этого столбца, сгруппированными по столбцам "primary_use" и "square_feet",Какой API я мог бы использовать для достижения этой цели. В настоящее время я использую научный навык.

Спасибо и ваша помощь высоко ценится.

1 Ответ

0 голосов
/ 24 октября 2019

Если вы используете фрейм данных Pandas, он уже приносит все, что вам нужно.

Обратите внимание, что priary_use является категориальной функцией, в то время как square_feet непрерывно. Итак, сначала вы хотели бы разделить square_feet на категории, чтобы вы могли рассчитать среднее значение meter_reading для группы.

...