У меня есть корпус, написанный на французском, и после применения пакета слов с помощью библиотеки gensim я сохранил свой словарь.Во время сохранения модели нет ошибок кодирования или предупреждения.
Когда я загружаю модель или вручную просматриваю файл, акценты неправильно отображаются
"ã © coe" вместо"évolu"
Есть ли encoding="latin-1"
или encoding="cp1252"
, чтобы избежать этой проблемы, только когда мы сохраняем строку в текстовом файле?
w2vmodel = gensim.models.Word2Vec(text, size=100, window=5, min_count=5, workers=4)
w2vmodel.save('./w2v_model')
w2vmodelLoad= Word2Vec.load('./w2v_model')
for word in w2vmodelLoad.token2id:
print(word)