Gridsearch CV дает разные лучшие параметры при обучении различным данным - PullRequest
0 голосов
/ 13 января 2020

Я ищу лучший способ настройки классификатора Randomforest и MLP в sklearn. Проблема в том, что резюме Grisearch дает мне немного разные лучшие параметры каждый раз, когда я запускаю свой код. Я предполагаю, что это происходит потому, что каждый раз мои данные о поездах и тестах разделяются по-разному У меня есть 2 вопроса:

1) Если каждый раз давать мне несколько лучших параметров, это означает, что мои данные зашумлены или что-то в этом роде?

2) Есть ли способ выбрать лучшие параметры? это подходит ко всем моим тренировочным наборам? По крайней мере, самые обычные лучшие параметры.

Бонус Вопрос: Я хочу классифицировать 3 переменные. Моя общая классификация precision_score (y_test1, pred1) дает около 57%, что я считаю низким. Я в основном забочусь о классификации высокой вероятности. Когда я вычисляю Forex_Proba (X_test1)> 0,8 и подсчитываю правильные и ложные классификации, я получаю оценку 0,90%, что является удовлетворительным. Должен ли я быть доволен этим процессом? Когда я запустлю новые тестовые данные, достигнут ли прогноз высокой вероятности моей модели показателя 0,90%?

С наилучшими пожеланиями, Ник

1 Ответ

0 голосов
/ 13 января 2020

1) Вы можете использовать семя для поддержания воспроизводимости результатов. Попробуйте использовать функцию train_test_split в SKLearn, чтобы разделить ваши данные и указать значение для параметра random_seed. Смотрите здесь . Наличие разных распределений обучающих данных и данных тестирования на отдельных запусках и получение разных результатов не означает, что в сигнале присутствует шум.

2) Можете ли вы уточнить здесь? Атрибуты best_estimator_ и best_params_ объекта GridSearchCV после его подбора должны содержать необходимые данные.

...