Проблема кодировки HuggingFace ByteLevelBPETokenizer в файле merge.txt - PullRequest
0 голосов
/ 04 мая 2020

Я использую HuggingFace ByteLevelBPETokenizer для создания словарного запаса для маратхи ("आपण हवे ते लेख लेख शकता")

Когда я тренирую данные на языке маратхи, я получаю такие результаты в merges.text файл, который не является частью словарного или обучающего набора данных.

à ¤

à ¥

Ġ à¤

ठ¾

Ниже приведен код, используемый для обучения

from tokenizers import ByteLevelBPETokenizer

filename= "marathi.txt"

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()


# Customize training
tokenizer.train(files=filename, vocab_size=20_000, min_frequency=3, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

Я также попытался установить параметр Unicode_normalizer ByteLevelBPETokenizer, задав для каждого из значений ['nf c', 'nfd ',' nfk c ',' nfkd '].

Как получить правильные слова в словаре, как с этим справиться?

...