Может ли кто-нибудь помочь объяснить основную концепцию модели bpe ?За исключением этой статьи , объяснений по этому поводу пока не так много.
Что я знал до сих пор, так это то, что он позволяет преобразовывать модель NMT в открытом словаре, кодируя редкие и неизвестные слова как последовательности единиц подслов.
Но я хочу получить общее представление окак это работает без прохождения бумаги.