Что означает «тета» в языковой модели? - PullRequest
0 голосов
/ 09 мая 2020

Я знаю, что если X обозначает текст, p (X) обозначает языковую модель текста. И чаще всего мы используем оценку максимального правдоподобия для оценки языковой модели. Но во многих случаях я нахожу параметр $ \ theta $, используемый для представления языковой модели. Я не понимаю смысла этого $ \ theta $. Например, для документа d в ​​коллекции какой цели служит $ \ theta $ в 'p (d | $ \ theta $)'?

Представляет ли $ \ theta $ оценку максимального правдоподобия или языковую модель?

Может кто-нибудь подробно объяснить эту разницу между языковой моделью и $ \ theta $?

Заранее спасибо!

1 Ответ

1 голос
/ 10 мая 2020

\theta - это обычная / стандартная нотация машинного обучения, обозначающая (строго говоря) набор параметров (значений), часто более известный как вектор параметров.

Обозначение P(Y|X;\theta) следует читать, поскольку значения y (например, MNIST di git метки) предсказываются из значений x (например, входные изображения цифр MNIST) с помощью обученной модели который обучается на аннотированных парах (X, Y). Эта модель параметризована \theta. Очевидно, что при изменении алгоритма обучения изменится и вектор параметров \theta.

Структура этих векторов параметров обычно интерпретируется из модели, с которой они связаны, например, для многослойных нейронных сетей они указывают на реальные -значные векторы первоначально назначаются случайным образом, а затем обновляются градиентным спуском на каждой итерации.

Для языковых моделей, основанных на генерации слов, они относятся к вероятности слова v, следующего за словом u, что означает, что каждый Элемент - это запись в ha sh -таблице вида (u, v) --> count(u.v)/count(u). Эти вероятности извлекаются из набора обучающих документов, C документов, в результате чего они по существу становятся функцией обучающего набора . Для другой коллекции эти значения вероятности будут другими.

Следовательно, обычным соглашением является запись P(w_n|P_w_{n-1};\theta), что в основном означает, что эти вероятности последовательности слов параметризованы на \theta .

Аналогичный аргумент применим к языковым моделям на уровне документа при поиске информации, где веса по существу указывают на вероятности выборки терминов из документов.

...