Я прочитал много уроков о BPE, но все еще не понимаю, как это работает.
, например. В онлайн-учебнике они сказали следующее:
Алгоритм
Подготовьте достаточно большие обучающие данные (т. Е. Корпус)
Определите желаемый размер словарного запаса подслов
Разделите слово на последовательность символов и добавьте суффикс «» к концу слова
с частотой слова. Таким образом, базовая единица c является символом на этой стадии. Например, частота «low» равна 5, затем мы перефразируем ее как «low»: 5 Генерируем новое подслово в соответствии с появлением высокой частоты. Повторение шага 4 до тех пор, пока не будет достигнут размер словарного словаря, который определен на шаге 2, или следующая самая высокая пара частот: 1.
Принимая «low: 5», «lower: 2», «newest: 6» и «widest» : 3 », например, пара подслов наивысшей частоты - это e и s. Это потому, что мы получаем 6 отсчетов от самых новых и 3 отсчета от самых широких. Затем формируется новое подслово (слова), и оно становится кандидатом в следующей итерации.
Во второй итерации следующей парой высокочастотных подслов является es (сгенерированная из предыдущей итерации) и t. Это потому, что мы получаем 6count от самого нового и 3 от самого широкого.
Я не понимаю, почему low - 5, а low - 2:
означает, что l, o, w, lo, ow + = 6, а затем ниже равно два, но почему не e, r, er, который дает три?