Привет всем, я относительно новичок в области науки о данных. Я пытаюсь на самом деле обучить SGDClassifier с более чем 4000000 наборов данных без каких-либо возможных результатов.
X вектор имеет 6 функций и выглядит так: [2, 4, 56431555, 1, 0, 33]
Y вектор имеет 1 особенность, которая является категорией. Это может быть 1 или 0 ... например [1]
Вот несколько примеров моих записей данных:
X:
[[ 2 4 56431555 1 0 33]
[ 2 1 71716268 1 0 623]
[ 0 1 302 0 1 33]
...
[ 0 4 3707 0 1 33]
[ 0 1 733126 1 0 33]
[ 0 4 30960953 1 0 33]]
Y:
[0 0 1 ... 1 1 0]
Когда я использую .predict () для тестовых данных, единственный результат, который я получаю, состоит в том, что каждый тестовый вектор принадлежит классу 0. Таким образом, я получаю массив, полный нулей.
Это параметры, для которых я инициализирую классификатор
from sklearn import linear_model
model = linear_model.SGDClassifier(max_iter=1000, tol=1e-3)
model.fit(data_train, target_train)
Любые предложения о том, как подойти к этой проблеме? (я уже пытался использовать стандартное масштабирование для моих данных)
Примечание: среднее значение: потери при обучении огромны, и когда я масштабирую свои данные, это 0,97, что я не знаю, может ли это показать что-либо о моем наборе данных или модели