Невозможно получить логи c за языком модели Unigram, используемым для токенизации в nlp - PullRequest
0 голосов
/ 20 марта 2020

Цитата из поста в блоге:

"Одно важное предположение, что каждое подслово происходит независимо, что весьма маловероятно, поскольку вхождения некоторых подслов должны быть сильно коррелированными. Но это предположение позволяет нам сформулировать вероятность последовательность подслов легче, как произведение вероятностей появления подслов:

Формула

Formula

И поскольку эти вероятности появления подслов скрыты переменных, он использует алгоритм EM, который максимизирует следующую предельную вероятность:

Формула

Formula

Если мы читаем его справа налево мы увидим, что он сначала вычисляет сумму вероятностей всех кандидатов на сегментацию, берет журнал, а затем суммирует результаты всех предложений вместе. " Я не могу понять ни капли из этого

Blog_Link: средний пост, из которого я пытался понять концепцию

...