У меня проблема с подключением при прямой загрузке модели Bert (политика конфиденциальности компании), поэтому я скачал BertTokenizer по адресу https://github.com/huggingface/transformers/blob/master/src/transformers/tokenization_bert.py
и получил текстовый файл токенайзера моей модели , «bert-base-multilingual-case»: «https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt»,
, но при импорте модели токенизатора выдается ошибка. Мой код:
tokenizer = BertTokenizer.from_pretrained("My BERT MODEL DIRECTORY", do_lower_case=False)
tokenized_texts = [tokenizer.tokenize(sent) for sent in sentences]
print (sentences[0])
print (tokenized_texts[0])
Сообщение об ошибке 'utf-8' codec can't decode bytes in position 7526-7527: invalid continuation byte
Я пытаюсь + encoding = 'utf-8', 'cp949' вот так tokenizer = BertTokenizer.from_pretrained("My BERT MODEL DIRECTORY", encoding = 'uft-8', do_lower_case=False)
но Это не работает .. Спасибо за ваш комментарий заранее.