Мне нужно одно горячее кодирование категориальных переменных в моем pandas фрейме данных.
Мой набор данных действительно большой, с более 2000 идентификаторами продуктов , чтобы быть одним горячим кодированием.
Я пробовал pd.get_dummies, и он всегда вылетает.
Я также попробовал OneHotEncoder от scikit-learn, который также дает сбой! (он отлично работает с меньшим подмножеством фрейма данных)
Какие есть еще методы? Каков наиболее эффективный способ горячего кодирования категориальных переменных для очень большого набора данных?
Мой фрейм данных:
Month User ProductID
1 A ProdA
3 A ProdB
11 A ProdC
12 A ProdD
Требуемый вывод:
Month User ProdA ProdB ProdC ProdD
1 A 1 0 0 0
3 A 0 1 0 0
11 A 0 0 1 0
12 A 0 0 0 1