Как работает алгоритм BPE уровня байтов в GPT2 и Roberta? - PullRequest
0 голосов
/ 09 апреля 2020

Я читаю статью и ее реализацию GPT-2, и мне трудно понять алгоритм BPE "байтового уровня", используемый для токенизации. В документе говорится, что «BPE-версия BPE требует только базовый словарь размера 256», как она может этого достичь? Может кто-нибудь объяснить более подробно об этом?

PS: Я нашел хорошее объяснение алгоритма BPE здесь , но он говорит только о BPE уровня персонажа, который также известен как WordPiece в Bert ( Пожалуйста, поправьте меня, если я ошибаюсь).

Спасибо за любую помощь!

...