Это зависит от вашей целевой функции и проблемы, которую вы пытаетесь решить.
Обычно «лучшая» модель работает лучше, чем другие модели с использованием некоторых показателей, но не работает так же хорошо с другими показателями. Например, в вашем примере увеличение RMSE дает лучший AU C, но худший MAE. Взгляните на документацию scikit для получения обширного списка метрик ошибок, которые вы могли бы использовать: https://scikit-learn.org/stable/modules/model_evaluation.html. Вам нужно будет решить, получат ли все одинаковые веса или нет.
Вы можете sh рассмотреть пакетирование, когда вы комбинируете взвешенную комбинацию всех ваших моделей, вместо того, чтобы выбирать только одну модель, чтобы уменьшить ошибки обобщения при работе с данными вне выборки.
Также рассмотрите возможность создания данных вне выборки, которые соответствуют случайному распределению вашего обученного набора данных. Вы можете обнаружить, что данные вне выборки генерируют метрики ошибок для каждой модели, которые сильно отличаются от результатов в выборке, и моделирование Монте-Карло этих тестов вне выборки даст вам лучшую ясность в отношении того, какая модель (модели) и показатели ошибок, на которых следует сосредоточиться.