Как я могу восстановить вероятность того, что определенное слово появится в данном контексте из вложенных слов? - PullRequest
0 голосов
/ 23 сентября 2019

Я знаю, что некоторые методы генерации вложений слов (например, CBOW) основаны на прогнозировании вероятности появления данного слова в данном контексте.Я работаю с польским языком, который иногда неоднозначен в отношении сегментации, например, «Coś» можно рассматривать как одно слово или как два слова, которые были соединены («Co» + «-ś») в зависимости от контекста,Я хочу создать токенайзер, чувствительный к контексту.Предполагая, что у меня есть векторное представление предыдущего контекста и все возможные сегментации, могу ли я каким-то образом вычислить или приблизить вероятность появления определенных слов в этом контексте?

1 Ответ

0 голосов
/ 23 сентября 2019

Это очень сильно зависит от того, как вы получили ваши вложения.Модель CBOW имеет два параметра: матрицу внедрения, обозначаемую v , и матрицу выходной проекции v '.Если вы хотите восстановить вероятности, которые используются в модели CBOW во время обучения, вам также необходимо получить v '.См. Уравнение (2) в статье word2vec .Инструменты для предварительного вычисления встраивания слов обычно этого не делают, поэтому вам придется изменить их самостоятельно.

В любом случае, если вы хотите вычислить вероятность слова, учитывая контекст, вам лучше подуматьоб использовании (нейронной) языковой модели, чем таблица вложений слов.Если вы будете искать в Интернете, я уверен, что вы найдете то, что соответствует вашим потребностям.

...