Какие предложения вы встраиваете, это тот же домен, что и в котором были созданы встраивания fastText?
Попытайтесь получить представление ваших данных в токенах, т. Е. Набор всех токенов или некоторые представления наиболее распространенных токенов, которые появляются в предложениях, которые вы хотите встроить с помощью fastText.
Вычислите перекрытия ваших токенов с токенами в fastText, удалите те из fastText, которые не отображаются в вашем представлении данных.
Я сделал это недавно и перешел из файла объемом 1,4 ГБ с некоторыми предварительно обученными вложениями слов в 200 МБ, главным образом потому, что совпадение с моим корпусом составило около 10%.