Как понять кодирование пары байтов? - PullRequest
0 голосов
/ 12 марта 2020

Я прочитал много уроков о BPE, но все еще не понимаю, как это работает.

, например. В онлайн-учебнике они сказали следующее:

Алгоритм

Подготовьте достаточно большие обучающие данные (т. Е. Корпус)

Определите желаемый размер словарного запаса подслов

Разделите слово на последовательность символов и добавьте суффикс «» к концу слова

с частотой слова. Таким образом, базовая единица c является символом на этой стадии. Например, частота «low» равна 5, затем мы перефразируем ее как «low»: 5 Генерируем новое подслово в соответствии с появлением высокой частоты. Повторение шага 4 до тех пор, пока не будет достигнут размер словарного словаря, который определен на шаге 2, или следующая самая высокая пара частот: 1.

Принимая «low: 5», «lower: 2», «newest: 6» и «widest» : 3 », например, пара подслов наивысшей частоты - это e и s. Это потому, что мы получаем 6 отсчетов от самых новых и 3 отсчета от самых широких. Затем формируется новое подслово (слова), и оно становится кандидатом в следующей итерации.

Во второй итерации следующей парой высокочастотных подслов является es (сгенерированная из предыдущей итерации) и t. Это потому, что мы получаем 6count от самого нового и 3 от самого широкого.

Я не понимаю, почему low - 5, а low - 2:

означает, что l, o, w, lo, ow + = 6, а затем ниже равно два, но почему не e, r, er, который дает три?

1 Ответ

0 голосов
/ 22 марта 2020

Числа, о которых вы спрашиваете, являются частотами слов в корпусе. Слово «низкий» встречалось в корпусе 5 раз, а слово «нижний» - 2 раза (они просто предполагают это для примера).

В первой итерации мы видим, что пара символов «es» наиболее часто встречающийся, потому что он встречается 6 раз в 6 случаях «new es t» и 3 раза в 3 случаях появления слова «wid es t».

Во второй итерации в нашем словаре «es» используется как единица, точно так же, как у нас есть отдельные символы. Затем мы видим, что «est» является наиболее распространенной комбинацией символов («new est » и «wid est »).

...