Я создаю приложение python, в котором я хочу прогнозировать значения PM2,5 в течение месяца. Я использую полиномиальную регрессию и обучил алгоритм разбивать данные на 30% данных испытаний и 70% данных обучения. Я использую эту строку кода для обучения алгоритма:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42,shuffle=True)
Но я заметил, что, если я даю random_state разные целые числа, среднеквадратическая ошибка различна, а также точность прогноза. Как найти оптимальные параметры для метода train_test_split, чтобы прогноз имел наибольшую точность?