Модели на скуит-худой не учатся - PullRequest
0 голосов
/ 10 марта 2019

Я новичок в scikit-learn. Я слежу за книгой «Практические мл с scikit learn и tenorflow». Все модели, которые я пытаюсь реализовать, работают довольно плохо.

Я не получаю никакой ошибки, и код почти такой же из книги. Я установил ту же версию Scikit книги, на всякий случай, это было так.

Я использую гиперпараметры по умолчанию, и модели не очень хорошо подобраны для этой задачи. Но они работают намного хуже, чем в книге и чуть выше случайных.

Я думаю, это может быть из-за того, что я использую не мощный ноутбук, и модели преждевременно прекращают обучение.

Я пробовал LinearRegression, RandomForestRegressor, SVR в базе данных жилья на 20000 случаев с 12 параметрами. Я также пробовал SGDClassifier в наборе данных MINST в качестве двоичного классификатора. Все это, следуя инструкциям книги.

#RANDOM FOREST MODEL
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
forest_reg.fit(housing_pr, housing_labels)
forest_reg_scores = cross_val_score(forest_reg, housing_pr, housing_labels, scoring="neg_mean_squared_error", cv=10)
forest_reg_rmse_scores = np.sqrt(-forest_reg_scores)
display_scores(forest_reg_rmse_scores)

Результат

Scores: [100358.84813795  59740.95594336  73069.35686091  58367.36656326
  70119.66693956  61570.40051825  49889.14813703  80314.78172767
  73177.26056318 102031.12922303]
Mean: 72863.89146141837
Standard deviation: 16454.877060423143

В то время как в книге среднее значение составляет 52634,191, а стандартное отклонение 1576

Диапазон цен составляет от 120000 до 265000.

Разница намного больше в наборе данных MINST. Выполнение двоичного классификатора для классификации 5 объясняет точность и отзыв. Его 0,7687 и 0,79136, а мои 0,092217 и 0,06972.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...