Явная вероятность того, что WordPiece использовался для предварительной обработки BERT - PullRequest
0 голосов
/ 04 августа 2020

На каждой итерации алгоритм WordPiece для токенизации подслов объединяет два символа, что увеличивает вероятность больше всего. Теперь в литературе упоминается только, что эта вероятность - это вероятность языковой модели (например, такая же вероятность, используемая при декодировании, в случае NMT). Кто-нибудь знает, какая вероятность использовалась для предварительной обработки BERT?

...