\theta
- это обычная / стандартная нотация машинного обучения, обозначающая (строго говоря) набор параметров (значений), часто более известный как вектор параметров.
Обозначение P(Y|X;\theta)
следует читать, поскольку значения y (например, MNIST di git метки) предсказываются из значений x (например, входные изображения цифр MNIST) с помощью обученной модели который обучается на аннотированных парах (X, Y). Эта модель параметризована \theta
. Очевидно, что при изменении алгоритма обучения изменится и вектор параметров \theta
.
Структура этих векторов параметров обычно интерпретируется из модели, с которой они связаны, например, для многослойных нейронных сетей они указывают на реальные -значные векторы первоначально назначаются случайным образом, а затем обновляются градиентным спуском на каждой итерации.
Для языковых моделей, основанных на генерации слов, они относятся к вероятности слова v
, следующего за словом u
, что означает, что каждый Элемент - это запись в ha sh -таблице вида (u, v) --> count(u.v)/count(u)
. Эти вероятности извлекаются из набора обучающих документов, C
документов, в результате чего они по существу становятся функцией обучающего набора . Для другой коллекции эти значения вероятности будут другими.
Следовательно, обычным соглашением является запись P(w_n|P_w_{n-1};\theta)
, что в основном означает, что эти вероятности последовательности слов параметризованы на \theta
.
Аналогичный аргумент применим к языковым моделям на уровне документа при поиске информации, где веса по существу указывают на вероятности выборки терминов из документов.