Память эффективно загружает предварительно обученные вложения слов из библиотеки fasttext с помощью gensim - PullRequest
0 голосов
/ 11 декабря 2019

Я бы хотел загрузить предварительно подготовленные многоязычные вложения слов из библиотеки fasttext с помощью gensim;здесь ссылка на вложения:

https://fasttext.cc/docs/en/crawl-vectors.html

В частности, я хотел бы загрузить следующие вложения слова:

  • cc.de.300. vec (4,4 ГБ)
  • cc.de.300.bin (7 ГБ)

Gensim предлагает следующие два варианта загрузки файлов быстрого текста:

  1. gensim.models.fasttext.load_facebook_model(path, encoding='utf-8')

    • Загрузить матрицу весов со скрытым вводом из исходного выходного файла fasttext .bin Facebook.
    • load_facebook_model () загружает полную модель, а не только вложения слов, и позволяет продолжить обучение модели.
  2. gensim.models.fasttext.load_facebook_vectors(path, encoding='utf-8')

    • Загрузить вложения слов из модели, сохраненной в родном формате fasttext .bin Facebook.
    • load_facebook_vectors () загружает только вложения слов. Это быстрее, но не позволяет вам продолжить обучение.

Источник Документация Gensim: https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model

Поскольку мой ноутбук имееттолько 8 ГБ ОЗУ, я продолжаю получать MemoryErrors или загрузка занимает очень много времени (до нескольких минут).

Есть ли возможность загружать эти большие модели с диска с большей эффективностью памяти?

...