Для моделей такого типа требуются многочисленные, разнообразные примеры использования, чтобы поместить токен в относительно хорошее место, на значимые расстояния / направления от других связанных токенов.Если у вас нет таких примеров или у вас их мало / плохо, алгоритм мало чем может помочь.
Если вы как-то знаете, a priori , что 'microsoft'
должно появиться в некоторых конкретных векторных координатах, тогда, конечно, вы можете исправить модель, чтобы включить это слово-> векторное отображение.(Хотя такие классы моделей часто не включают в себя удобные методы для таких добавочных дополнений, потому что ожидается, что слова обучаются в массе из корпусов, а не продиктованы индивидуально.)
Но если вы не наденетеу вас нет примера текста для некоторого диапазона токенов, например, названия компаний, у вас, вероятно, нет и независимого представления о том, где эти токены должны быть.
Действительно, вам нужно найти адекватные данные для тренировок.И затем, предполагая, что вы хотите, чтобы векторы для этих новых терминов находились в «одном и том же пространстве» и были сопоставимы с вашими существующими векторами слов, объедините это с вашими предыдущими данными и объедините все данные в одну объединенную модель.(И, кроме того, для алгоритма, подобного FastText, для синтеза разумных векторов угадывания для никогда ранее не замеченных слов OOV, требуется множество примеров слов, которые имеют перекрывающиеся значения и перекрывающиеся фрагменты символьного грамма.)
Расширение вашего корпуса, чтобы иметь лучшие учебные данные, скажем, для 100 названий целевых организаций, может быть так же просто, как просмотреть предложения / параграфы, включая имена из доступных источников, таких как Википедия или Интернет.
Собирая десятки (или даже лучше сотни или тысячи) независимых примеров названий организаций в реальных языковых контекстах, и поскольку эти контексты включают в себя множество совместно используемых других слов или имен других связанных организаций, выбыл бы в состоянии вызвать разумные векторы для этих терминов и связанных с ними терминов.