Question

Я скачал векторный файл с предварительно подготовленным словом (.bin) из Facebook (https://fasttext.cc/docs/en/crawl-vectors.html) Тем не менее, когда я пытался использовать эту модель, это случалось с ошибкой.

from gensim.models import FastText
fasttext_model = FastText.load_fasttext_format('cc.ko.300.bin', encoding='utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte

Но странно то, что он работает хорошо, когда я использую файл bin старой версии (https://fasttext.cc/docs/en/pretrained-vectors.html)

Что не так с этими файлами? И как я могу это исправить ??

И я должен использовать bin-файл, потому что мне нужны все n-граммы для предотвращения OOV. Таким образом, такие решения, как «использование файла .vec», не могли помочь.

Большое спасибо:)

zzaebok · Answer 1 · 03 апреля 2019

Оказалось, что у модели FB Koean fasttext есть несколько странных юникодов, и gensim обновит эту проблему.

https://github.com/RaRe-Technologies/gensim/issues/2402

gojomo · Answer 2 · 06 марта 2019

Убедитесь, что вы используете последнюю версию (3.7.1) gensim;были последние исправления и улучшения load_fasttext_model().

Кроме того, дважды проверьте загрузку cc.ko.300.bin, чтобы убедиться, что она не была повреждена или усечена.

Если ничего из этого не помогло, попробуйте включить ведение журнала на уровне INFO, попробуйте загрузить снова и поделитесь полным выводом и стеком ошибок внутри своего вопроса, чтобы дать больше подсказок о том, где что-то идет не так.

Быстрая текстовая модель в Facebook. UnicodeDecodeError

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Быстрая текстовая модель в Facebook. UnicodeDecodeError

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы