BPE несколько способов кодирования слова - PullRequest
0 голосов
/ 05 августа 2020

С помощью BPE или WordPiece может быть несколько способов кодирования слова. Например, предположим (для простоты), что словарь токенов содержит все буквы, а также объединенные символы («to», «ke», «en»). Тогда слово «токен» можно было бы закодировать как («to», «ke», «n») или («to», «k», «en»). Такие неоднозначные кодировки также упоминаются в этом руководстве https://blog.floydhub.com/tokenization-nlp/

Однако в руководстве по hugginface упоминается, что «BPE и WordPiece [...] вырабатывают правила в определенном порядке которые затем можно применить в том же порядке при разметке нового текста ", см. https://huggingface.co/transformers/master/tokenizer_summary.html.

Как именно эти правила сохраняются и применяются при использовании BPE / WordPiece, например, в моем в примере выше, как определяется, какую токенизацию использовать?

...