У меня есть DataFrame с миллионом строк и множеством значений NaN.Пример:
index Company Area
0 Google Technology
1 Coca Cola Drinks
2 NaN Drinks
3 Apple Technology
4 NaN Technology
5 Gatorade Drinks
6 Dell Technology
7 Apple Technology
8 Coca Cola Drinks
9 NaN Drinks
10 Google Technology
Моя идея состоит в том, чтобы заполнить значения NaN компаний одним из 2 наиболее распространенных значений для его области.
Из примера: если наиболее частыми компаниями в области технологий являются Apple и Google, я хотел бы заполнить значения NaN "df ['Area'] == 'Technology'" одним из этих значений (случайным образом)
Я уже создал DataFrame Group By с наиболее распространенными значениями, это примерно так:
Area Company
Technology Google
Technology Apple
Drinks Coca Cola
Drinks Pepsi
Результат должен выглядеть примерно так:
index Company Area
0 Google Technology
1 Coca Cola Drinks
2 Pepsi Drinks
3 Apple Technology
4 Google Technology
5 Gatorade Drinks
6 Dell Technology
7 Apple Technology
8 Coca Cola Drinks
9 Pepsi Drinks
10 Google Technology
Надеюсь, вы мне поможете.
Спасибо !!!