Как я могу сгенерировать неанглийское (французское, испанское, итальянское) вложение слов из вложения английских слов?
Вы не можете на самом деле.Если у вас нет слов, которые означают точно то же самое.Если вы знаете французское слово «король», «королева», «женщина» и «мужчина», вы можете ввести в эти слова одно и то же слово на английском языке.Они будут показывать те же синтаксические и семантические свойства, что и английские слова.Но вы не можете использовать встраивание на английском языке для создания встраивания для разных языков.
Каковы наилучшие способы создания высококачественного встраивания слов для неанглийских слов
Английские слова и неанглийские слова могут рассматриваться одинаково.Представьте свои неанглийские слова в виде строк / токенов и обучите модель w2v.Для этого используйте gensim.Вам нужно будет найти огромный корпус для языка, который вы хотите.Тогда вам придется тренировать свою модель с этим огромным корпусом в течение нескольких эпох.Готово.Кроме того, ищите уже существующие модели на нужном вам языке.
Слова могут включать в себя (samsung-galaxy-s9)
Если в вашем корпусе нет таких слов, как "samsung-galaxy"-s9 ", ваша модель не будет знать, что это значит.Используйте корпус, в котором может быть больше слов в домене, для которого вы хотите использовать вложения.