Я кодировал модель с помощью Tensorflow, и у меня закончилась память на моем P C, затем я пробую то же самое в Google Colab и получил тот же результат.
Моя форма набора данных изначально была такой :
(541909, 8)
Проблема в том, что в моем наборе данных есть одна строка с именем 'Description'
, которая выглядит так:
0 WHITE HANGING HEART T-LIGHT HOLDER
1 WHITE METAL LANTERN
2 CREAM CUPID HEARTS COAT HANGER
3 KNITTED UNION FLAG HOT WATER BOTTLE
4 RED WOOLLY HOTTIE WHITE HEART
...
В моем наборе данных более 500000 строк, а в столбце 'Description'
более 3500 уникальных значений, поэтому для обучения моей модели я использую функцию pandas.get_dummies()
:
dataset = pd.get_dummies(dataset, columns=["Description"])
Используя это, форма набора данных изменяется на:
(541909, 3936)
Я уверен, что этот огромный объем данных является частью проблемы, но я не уверен, как я могу этого избежать, есть ли предложения, как это исправить?