Question

Здравствуйте, я пытаюсь реализовать Cammebert на французских текстах, эти тексты длинные, иногда сложные, потому что они могут содержать математические формулы, url, .... они закодированы в utf8. для реализации BertLMDataBunch.from_raw_corpus мне нужно передать текстовую информацию в виде списка строк.

databunch_lm = BertLMDataBunch.from_raw_corpus(
                data_dir=DATA_PATH,
                text_list=all_texts,
                tokenizer='camembert-base',
                batch_size_per_gpu=16,
                max_seq_length=512,
                multi_gpu=False,
                model_type='camembert-base',
                logger=logger)

Erik Leusink · Answer 1 · 19 июня 2020

Разве вы не пропустили «-» между UTF и 8 при декодировании?

Вы можете найти его на своем изображении в записи 65.

CamemBERT, код 'charmap' c не может закодировать символ '\ u2260' с помощью BertLMDataBunch.from_raw_corpus

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CamemBERT, код 'charmap' c не может закодировать символ '\ u2260' с помощью BertLMDataBunch.from_raw_corpus

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы