Я обычно не делю свои данные на 3 части.Я случайно использую 20% данных о поездах для проверки в 5-10 итераций и проверяю точность с разными C.
Предположим, что я проверяю 5 итераций и 4 разных C:
**Iteration** **C** **Accuracy**
1 10 92
1 1 91.23
1 0.1 90.9
1 0.01 89.88
Точно так же я делаю это еще для 5 итераций (каждая итерация устанавливает новый набор проверки случайным образом из данных поезда), и в качестве лучшего параметра выбирается значение C с самой высокой средней точностью по различным итерациям.
В качестве альтернативы, Вы можетеиспользуйте GridSearchCV или RandomizedSearchCV для достижения того же.