CamemBERT, код 'charmap' c не может закодировать символ '\ u2260' с помощью BertLMDataBunch.from_raw_corpus - PullRequest
0 голосов
/ 19 июня 2020

Здравствуйте, я пытаюсь реализовать Cammebert на французских текстах, эти тексты длинные, иногда сложные, потому что они могут содержать математические формулы, url, .... они закодированы в utf8. для реализации BertLMDataBunch.from_raw_corpus мне нужно передать текстовую информацию в виде списка строк.

Text example

databunch_lm = BertLMDataBunch.from_raw_corpus(
                data_dir=DATA_PATH,
                text_list=all_texts,
                tokenizer='camembert-base',
                batch_size_per_gpu=16,
                max_seq_length=512,
                multi_gpu=False,
                model_type='camembert-base',
                logger=logger)

error message

1 Ответ

0 голосов
/ 19 июня 2020

Разве вы не пропустили «-» между UTF и 8 при декодировании?

Вы можете найти его на своем изображении в записи 65.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...