Сравнение рандомизированного поиска и поиска по сетке для оценки гиперпараметров - PullRequest
0 голосов
/ 30 мая 2018

Я хочу выполнить настройку гиперпараметра, и для этого я хочу использовать RandomizedSearchCV или GridSearchCV.Я попытался запустить оба метода для классификатора Random Forest.

Я обнаружил, что поиск по сетке будет искать по всем возможным комбинациям моей сетки параметров, но при рандомизированном поиске выполняется поиск только по 10 возможным комбинациям.Предполагая, что он принимает любые 10 случайных наборов параметров, он может дать мне ложные лучшие параметры.С другой стороны, если я использую метод GridSearch, он дает мне большое время выполнения.Теперь я запутался между этими двумя методами.Какой я должен использовать?Или я могу внести некоторые изменения, которые дадут мне лучшие параметры в приемлемой среде выполнения?

1 Ответ

0 голосов
/ 30 мая 2018

Схема настройки гиперпараметра зависит от вашего приложения.Что касается поиска по сетке и рандомизированного поиска:

  • Поиск по сетке работает хорошо, когда у вас небольшое количество гиперпараметров, и когда каждый гиперпараметр имеет примерно одинаковую величину влияния на показатель проверки

  • Рандомизированный поиск - лучший вариант, когда величины влияния несбалансированы, что, скорее всего, произойдет, когда число ваших параметров будет расти

Источник: deeplearning.ai Курс по настройке hparam здесь

Другие схемы настройки включают

  • От грубой до тонкой грубой выборки: Пример с сеткой Поиск грубосначала гиперпараметрическое пространство и концентрируйте выборки там, где оценка достоверности выше
  • Байесовская оптимизация с гауссовскими процессами: здесь
...