Я работаю над проектом рекомендации рейсов, в котором коды аэропортов каждого источника будут предоставлены вместе с некоторыми данными. с этим я должен предсказать пункт назначения, до которого может добраться самолет.
Мне приходится иметь дело с 6+ миллионами строк. поэтому я столкнулся с проблемой при использовании кодов аэропорта oneHotEncoding (которых в текущем наборе данных более 3000). перед установкой в модель. Может ли кто-нибудь предложить, как onehotencode или решить эту проблему?
from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)
, и я получаю, что не могу выделить 11,3 Гиб.
Я пробовал использовать меньше данных, и он работает.