Как загрузить сохраненный токенизатор из предварительно обученной модели в Pytorch - PullRequest
2 голосов
/ 16 октября 2019

Я точно настроил модель BERT с предварительной подготовкой в ​​Pytorch, используя трансформатор с обнимающим лицом. Все обучение / проверка выполняется на графическом процессоре в облаке.

В конце обучения я сохраняю модель и токенизатор, как показано ниже:

best_model.save_pretrained('./saved_model/')
tokenizer.save_pretrained('./saved_model/')

Это создает следующие файлы в каталоге saved_model:

config.json
added_token.json
special_tokens_map.json
tokenizer_config.json
vocab.txt
pytorch_model.bin

Теперь я загружаю каталог saved_model на свой компьютер и хочу загрузить модель и токенизатор. Я могу загрузить модель, как показано ниже:

model = torch.load('./saved_model/pytorch_model.bin',map_location=torch.device('cpu'))

Но как мне загрузить токенизатор? Я новичок в Pytorch и не уверен, потому что есть несколько файлов. Возможно, я неправильно сохраняю модель?

Пожалуйста, предложите.

1 Ответ

1 голос
/ 17 октября 2019

Если вы посмотрите на синтаксис, это каталог предварительно обученной модели, которую вы должны пройти. Следовательно, правильный способ загрузки токенизатора должен быть:

tokenizer = BertTokenizer.from_pretrained(<Path to the directory containing pretrained model/tokenizer>)

В вашем случае:

tokenizer = BertTokenizer.from_pretrained('./saved_model/')

./saved_model здеськаталог, в котором вы будете сохранять свою предварительно обученную модель и токенизатор.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...