amy 11 октября 2018 32

Fasttext UnicodeDecode проблема

amy / 11 октября 2018

Я пытаюсь загрузить файл быстрого текста, чтобы использовать его в качестве вложения слов в первый раз.У меня есть это:

KeyedVectors.load_word2vec_format(binary_file_path,
binary=True, encoding='utf-8', unicode_errors='ignore')

Я также попробовал то, что описано здесь: https://datascience.stackexchange.com/questions/20071/how-do-i-load-fasttext-pretrained-model-with-gensim Все еще те же результаты Я загрузил файл .bin из kaggle (https://www.kaggle.com/kambarakun/fasttext-pretrained-word-vectors-english) Но все же явозникла проблема: 'utf8' codec can't decode byte 0xba in position 0: invalid start byte Я хочу использовать только файл .bin, а не файл .vec, так как это занимает меньше времени.

...