Я использую HuggingFace ByteLevelBPETokenizer для создания словарного запаса для маратхи ("आपण हवे ते लेख लेख शकता")
Когда я тренирую данные на языке маратхи, я получаю такие результаты в merges.text файл, который не является частью словарного или обучающего набора данных.
à ¤
à ¥
Ġ à¤
ठ¾
Ниже приведен код, используемый для обучения
from tokenizers import ByteLevelBPETokenizer
filename= "marathi.txt"
# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()
# Customize training
tokenizer.train(files=filename, vocab_size=20_000, min_frequency=3, special_tokens=[
"<s>",
"<pad>",
"</s>",
"<unk>",
"<mask>",
])
Я также попытался установить параметр Unicode_normalizer ByteLevelBPETokenizer, задав для каждого из значений ['nf c', 'nfd ',' nfk c ',' nfkd '].
Как получить правильные слова в словаре, как с этим справиться?