Здравствуйте, я пытаюсь реализовать Cammebert на французских текстах, эти тексты длинные, иногда сложные, потому что они могут содержать математические формулы, url, .... они закодированы в utf8. для реализации BertLMDataBunch.from_raw_corpus мне нужно передать текстовую информацию в виде списка строк.

databunch_lm = BertLMDataBunch.from_raw_corpus(
data_dir=DATA_PATH,
text_list=all_texts,
tokenizer='camembert-base',
batch_size_per_gpu=16,
max_seq_length=512,
multi_gpu=False,
model_type='camembert-base',
logger=logger)
