Как найти оптимальные значения для разделения данных на тест и обучение? - PullRequest
0 голосов
/ 05 марта 2020

Я создаю приложение python, в котором я хочу прогнозировать значения PM2,5 в течение месяца. Я использую полиномиальную регрессию и обучил алгоритм разбивать данные на 30% данных испытаний и 70% данных обучения. Я использую эту строку кода для обучения алгоритма:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42,shuffle=True)

Но я заметил, что, если я даю random_state разные целые числа, среднеквадратическая ошибка различна, а также точность прогноза. Как найти оптимальные параметры для метода train_test_split, чтобы прогноз имел наибольшую точность?

1 Ответ

0 голосов
/ 05 марта 2020

Насколько изменяется точность, когда вы меняете случайное начальное число?

Вы можете использовать перекрестную проверку по k-кратному критерию, чтобы найти лучший сплит, однако я не уверен, что вам нужен тот, у которого самый высокий точность. Вы хотите, чтобы ваша модель обобщала. Вам следует go выбрать ту, в которой у вас достаточно обучающих данных и набор тестов, представляющий реальные тестовые данные, с которыми столкнется модель.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...