Я новичок в scikit-learn. Я слежу за книгой «Практические мл с scikit learn и tenorflow». Все модели, которые я пытаюсь реализовать, работают довольно плохо.
Я не получаю никакой ошибки, и код почти такой же из книги.
Я установил ту же версию Scikit книги, на всякий случай, это было так.
Я использую гиперпараметры по умолчанию, и модели не очень хорошо подобраны для этой задачи. Но они работают намного хуже, чем в книге и чуть выше случайных.
Я думаю, это может быть из-за того, что я использую не мощный ноутбук, и модели преждевременно прекращают обучение.
Я пробовал LinearRegression, RandomForestRegressor, SVR в базе данных жилья на 20000 случаев с 12 параметрами.
Я также пробовал SGDClassifier в наборе данных MINST в качестве двоичного классификатора.
Все это, следуя инструкциям книги.
#RANDOM FOREST MODEL
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
forest_reg.fit(housing_pr, housing_labels)
forest_reg_scores = cross_val_score(forest_reg, housing_pr, housing_labels, scoring="neg_mean_squared_error", cv=10)
forest_reg_rmse_scores = np.sqrt(-forest_reg_scores)
display_scores(forest_reg_rmse_scores)
Результат
Scores: [100358.84813795 59740.95594336 73069.35686091 58367.36656326
70119.66693956 61570.40051825 49889.14813703 80314.78172767
73177.26056318 102031.12922303]
Mean: 72863.89146141837
Standard deviation: 16454.877060423143
В то время как в книге среднее значение составляет 52634,191, а стандартное отклонение 1576
Диапазон цен составляет от 120000 до 265000.
Разница намного больше в наборе данных MINST. Выполнение двоичного классификатора для классификации 5 объясняет точность и отзыв. Его 0,7687 и 0,79136, а мои 0,092217 и 0,06972.