Создавайте вложения слов, не сохраняя векторный файл fastText Vector в репозитории. - PullRequest
1 голос
/ 05 марта 2019

Я пытаюсь вставить предложение с помощью Infersent , и Infersent использует fastText векторы для встраивания слов. Векторный файл fastText близок к 5 ГиБ.

Когда мы сохраняем векторный файл fastText вместе с хранилищем кода, это делает размер хранилища огромным и затрудняет совместное использование / развертывание кода (даже при создании контейнера Docker).

Есть ли способ избежать сохранения векторного файла вместе с хранилищем, но повторно использовать его для встраивания новых предложений?

1 Ответ

1 голос
/ 05 марта 2019

Какие предложения вы встраиваете, это тот же домен, что и в котором были созданы встраивания fastText?

Попытайтесь получить представление ваших данных в токенах, т. Е. Набор всех токенов или некоторые представления наиболее распространенных токенов, которые появляются в предложениях, которые вы хотите встроить с помощью fastText.

Вычислите перекрытия ваших токенов с токенами в fastText, удалите те из fastText, которые не отображаются в вашем представлении данных.

Я сделал это недавно и перешел из файла объемом 1,4 ГБ с некоторыми предварительно обученными вложениями слов в 200 МБ, главным образом потому, что совпадение с моим корпусом составило около 10%.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...