Question

Я пытаюсь вставить предложение с помощью Infersent , и Infersent использует fastText векторы для встраивания слов. Векторный файл fastText близок к 5 ГиБ.

Когда мы сохраняем векторный файл fastText вместе с хранилищем кода, это делает размер хранилища огромным и затрудняет совместное использование / развертывание кода (даже при создании контейнера Docker).

Есть ли способ избежать сохранения векторного файла вместе с хранилищем, но повторно использовать его для встраивания новых предложений?

David Batista · Answer 1 · 05 марта 2019

Какие предложения вы встраиваете, это тот же домен, что и в котором были созданы встраивания fastText?

Попытайтесь получить представление ваших данных в токенах, т. Е. Набор всех токенов или некоторые представления наиболее распространенных токенов, которые появляются в предложениях, которые вы хотите встроить с помощью fastText.

Вычислите перекрытия ваших токенов с токенами в fastText, удалите те из fastText, которые не отображаются в вашем представлении данных.

Я сделал это недавно и перешел из файла объемом 1,4 ГБ с некоторыми предварительно обученными вложениями слов в 200 МБ, главным образом потому, что совпадение с моим корпусом составило около 10%.

Создавайте вложения слов, не сохраняя векторный файл fastText Vector в репозитории.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создавайте вложения слов, не сохраняя векторный файл fastText Vector в репозитории.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы