OneHotEncoding 2500 различных категориальных переменных - PullRequest
0 голосов
/ 25 мая 2020

Я работаю над проектом рекомендации рейсов, в котором коды аэропортов каждого источника будут предоставлены вместе с некоторыми данными. с этим я должен предсказать пункт назначения, до которого может добраться самолет.

Мне приходится иметь дело с 6+ миллионами строк. поэтому я столкнулся с проблемой при использовании кодов аэропорта oneHotEncoding (которых в текущем наборе данных более 3000). перед установкой в ​​модель. Может ли кто-нибудь предложить, как onehotencode или решить эту проблему?

from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)

, и я получаю, что не могу выделить 11,3 Гиб.

Я пробовал использовать меньше данных, и он работает.

1 Ответ

0 голосов
/ 27 мая 2020

А с pandas пробовали? У него есть похожая функция get_dummies, которая может работать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...