У меня есть случай с кадром данных, содержащим категориальную переменную высокой мощности (много уникальных значений). Я хотел бы перекодировать эту переменную в набор значений (наиболее часто встречающиеся значения) и заменить все остальные значения категорией «все» («другие»). Чтобы привести простой пример:
Вот два значения, которые должны остаться неизменными:
top_values = ['apple', 'orange']
Я установил их на основе их частоты в следующем столбце данных:
{'fruits': {0: 'apple',
1: 'apple',
2: 'orange',
3: 'orange',
4: 'banana',
5: 'grape'}}
Этот столбец данных следует перекодировать следующим образом:
{'fruits': {0: 'apple',
1: 'apple',
2: 'orange',
3: 'orange',
4: 'other',
5: 'other'}}
Как это сделать? (Фрейм данных имеет миллионы записей)