Модель токенизации Wordpiece - PullRequest
       133

Модель токенизации Wordpiece

1 голос
/ 29 апреля 2020

Может кто-нибудь сказать мне, как именно работает модель Wordpiece? Я с трудом пытаюсь понять, как именно работает модель Wordpiece. Я понимаю BPE, что он основан на слиянии в соответствии с самыми высокими частотными парами. После нескольких часов копания на inte rnet и чтения бумаги. Упоминается, что в слове мы осуществляем окончательное слияние в соответствии с тем, что максимизирует вероятность созданной нами модели языка. Как создается эта языковая модель? Это вероятность появления пары равна количеству пар / общему количеству пар или как? Что я понимаю, так это то, что мы хотим измерить, какая пара токенов за вычетом отдельных токенов является наибольшей, например, если у нас "de" = 9, "d" = 15 "e" = 12 и "th" = 10, "t" = 12 "h" = 12, тогда мы решили объединить токен "t" и "h" в качестве его 10-24> 9-27. Я прав ? Пожалуйста, кто-нибудь поправьте меня

...