У меня есть категориальная переменная, которую я хочу преобразовать в макеты для задачи классификации. проблема в том, что некоторые уровни появляются только несколько раз, поэтому они создают проблемы идеальной мультиколлинеарности, когда я делю свою выборку в тренировочном наборе и тестовом наборе.
Как мне избавиться от этих уровней в быстрый и элегантный способ? Вот простой пример моих данных:
label var_x
1 1
0 2
1 1
0 3
1 2
0 4
0 5
1 5
1 1
....
Допустим, я хочу сохранить только те уровни, которые появляются больше 1 (или любого другого числа), я хочу перекодировать как "0" в этих случаях и получите что-то вроде этого:
label var_x
1 1
0 2
1 1
0 0
1 2
0 0
0 5
1 5
1 1
....
Спасибо за вашу помощь