Быстрая текстовая модель в Facebook. UnicodeDecodeError - PullRequest
0 голосов
/ 06 марта 2019

Я скачал векторный файл с предварительно подготовленным словом (.bin) из Facebook (https://fasttext.cc/docs/en/crawl-vectors.html) Тем не менее, когда я пытался использовать эту модель, это случалось с ошибкой.

from gensim.models import FastText
fasttext_model = FastText.load_fasttext_format('cc.ko.300.bin', encoding='utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte

Но странно то, что он работает хорошо, когда я использую файл bin старой версии (https://fasttext.cc/docs/en/pretrained-vectors.html)

Что не так с этими файлами? И как я могу это исправить ??

И я должен использовать bin-файл, потому что мне нужны все n-граммы для предотвращения OOV. Таким образом, такие решения, как «использование файла .vec», не могли помочь.

Большое спасибо:)

Ответы [ 2 ]

0 голосов
/ 03 апреля 2019

Оказалось, что у модели FB Koean fasttext есть несколько странных юникодов, и gensim обновит эту проблему.

https://github.com/RaRe-Technologies/gensim/issues/2402

0 голосов
/ 06 марта 2019

Убедитесь, что вы используете последнюю версию (3.7.1) gensim;были последние исправления и улучшения load_fasttext_model().

Кроме того, дважды проверьте загрузку cc.ko.300.bin, чтобы убедиться, что она не была повреждена или усечена.

Если ничего из этого не помогло, попробуйте включить ведение журнала на уровне INFO, попробуйте загрузить снова и поделитесь полным выводом и стеком ошибок внутри своего вопроса, чтобы дать больше подсказок о том, где что-то идет не так.

...