Question

Я провел несколько экспериментов с оптимизацией байесовских гиперпараметров для моих гиперпараметров lstm.

Я использую подход, в котором вы моделируете ошибку с помощью гауссовского процесса и алгоритма TPE.Они работают довольно хорошо.

Мне интересно, где эти стратегии называются "байесовскими".Кто-нибудь может объяснить, что означает «байесовский» в контексте оптимизации гиперпараметров?

Спасибо

user3658307 · Answer 1 · 01 июля 2019

Ну, во-первых, Гауссовские процессы попадают в область непараметрических байесовских моделей обучения , что означает, что они обычно считаются байесовскими моделями.С другой стороны, Оценщик Парцена с древовидной структурой в основном опирается на правило Байеса: он моделирует p(x|y) и p(y), которые мы можем использовать для получения p(y|x) по правилу Байеса.

Но независимо от того, когда люди обращаются к байесовской оптимизации, они больше говорят о самом поисковом подходе.Нечто байесовское, если оно включает (1) вероятностное предварительное убеждение и (2) принципиальный способ обновить свои убеждения при получении новых доказательств.Например, врачи общей практики формируют более чем функции , а также способ обновления posterior (новый дистрибутив после получения новых доказательств), что именно то, для чего мы хотимБайесовский ML.

Обычно, что нужно сделать, это начать с байесовского априора над (гипер) пространством параметров (кодируя ваши прежние представления о том, какой должна быть производительность).Мы определяем функцию сбора a(x), которая помогает нам выбирать, какие параметры смотреть на следующие.Поскольку у нас есть вероятностная байесовская модель, у нас есть понятие неопределенность : например, мы можем знать дисперсию прогнозирующего распределения нашей модели в конкретной точке.В точках, удаленных от наших наблюдений, дисперсия будет высокой, в то время как в точках вблизи наших наблюдений дисперсия будет низкой.У нас есть распределение p(y|x), другими словами.Этот явный учет неопределенности является огромным преимуществом байесовских подходов.

Функция сбора a(x) обычно должна сбалансировать два фактора: (1) неопределенность, поскольку в неопределенных областях могут быть «скрытые драгоценные камни», которые мы еще не видели, и (2) доказанная эффективность (т. е. мы должны оставаться вблизи областей пространства, которые мы наблюдали, что мы знаем, что хороши).Поэтому можно разработать a(x), чтобы минимизировать энтропию (неопределенность) в распределении или максимизировать байесовский сюрприз, что означает «выбирать точки, которые вызывают максимальное изменение апостериорного распределения при наблюдении».Подобные методы используются для исследования в изучении подкрепления (поиск «Байесовский сюрприз» или «любопытство»);любой такой метод, включающий обновление «апостериорных убеждений», обычно считается байесовским.

TLDR: они байесовские, потому что они предполагают начало с предварительного и итеративное обновление апостериорных вероятностей как убеждений.

Байесовская оптимизация гиперпараметров

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Байесовская оптимизация гиперпараметров

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы