SGDClassifier для больших данных (разреженный) - PullRequest
0 голосов
/ 17 апреля 2020

Привет всем, я относительно новичок в области науки о данных. Я пытаюсь на самом деле обучить SGDClassifier с более чем 4000000 наборов данных без каких-либо возможных результатов.

X вектор имеет 6 функций и выглядит так: [2, 4, 56431555, 1, 0, 33]

Y вектор имеет 1 особенность, которая является категорией. Это может быть 1 или 0 ... например [1]

Вот несколько примеров моих записей данных:

X:

[[       2        4 56431555        1        0       33]
 [       2        1 71716268        1        0      623]
 [       0        1      302        0        1       33]
 ...
 [       0        4     3707        0        1       33]
 [       0        1   733126        1        0       33]
 [       0        4 30960953        1        0       33]]

Y:

[0 0 1 ... 1 1 0]

Когда я использую .predict () для тестовых данных, единственный результат, который я получаю, состоит в том, что каждый тестовый вектор принадлежит классу 0. Таким образом, я получаю массив, полный нулей.

Это параметры, для которых я инициализирую классификатор

from sklearn import linear_model
model = linear_model.SGDClassifier(max_iter=1000, tol=1e-3)
model.fit(data_train, target_train)

Любые предложения о том, как подойти к этой проблеме? (я уже пытался использовать стандартное масштабирование для моих данных)

Примечание: среднее значение: потери при обучении огромны, и когда я масштабирую свои данные, это 0,97, что я не знаю, может ли это показать что-либо о моем наборе данных или модели

...