Я думаю, что хорошим руководством было бы посмотреть на прошлую работу, которая была проделана на местах. Хорошим обзором для начала является выступление Себастьяна Рудера , которое дает вам множество подходов, в зависимости от уровня информации, которую вы имеете о вашем исходном / целевом языке. Это в основном то, что делает MUSE, и я относительно уверен, что он считается современным.
Основная идея c в большинстве подходов состоит в том, чтобы отобразить пространства внедрения таким образом, чтобы вы минимизировали некоторое (обычно евклидово) расстояние между ними (см. стр. 16 ссылки). Очевидно, что это лучше всего работает, если у вас есть известный словарь, и вы можете точно отобразить различные переводы, и работает еще лучше, если два языка имеют схожие свойства linguisti c (если честно, не совсем уверены в отношении хинди и английского языка sh).
Еще один недавний подход - Multilingual-BERT (mBERT) , или аналогично XLM-RoBERTa , но они изучают встраивания на основе общего доступа словарь . Это может быть менее желательным, если у вас есть морфологически разнородные языки, а также есть недостаток, заключающийся в том, что они включают в себя множество других, не связанных между собой языков.
В противном случае мне неясно, что именно вы ожидаете от "обычное вложение", но с удовольствием расшифрую ответ после уточнения.