Прежде всего, вы не можете обмануть тестовый набор, а выбрать модель так, чтобы она давала лучшие результаты на тесте. Валидация предназначена для этого намерения, и тест предназначен только для проверки валидации, и тесты ладят друг с другом.
Вы не упомянули размер обучения, валидации и теста. Размер данных, которые вы используете, очень важен, чтобы быть настолько большим, чтобы представлять реальное распределение данных при обучении, валидации и тестировании.
С другой стороны, способ выборки данных должно быть сделано таким образом, чтобы три набора имели одинаковое распределение.
В заключение, не в последнюю очередь, вы сравниваете два результата, которые отличаются примерно на 0,0002 в MSE. Я не верю, что это дает вам хорошее мнение о том, какой из них лучше.