создание общего вложения для двух языков - PullRequest
1 голос
/ 02 марта 2020

Моя задача связана с несколькими языками, такими как (engli sh и хинди). Для этого мне нужно общее вложение для представления обоих языков.

Я знаю, что есть методы для изучения многоязычного встраивания, такие как 'MUSE', но это представляет эти два вложения в общем векторном пространстве, очевидно, они похожи, но не одинаковы.

Так что я Я хотел бы знать, есть ли какой-либо метод или подход, который может научиться представлять оба вложения в виде одного вложения, представляющего оба языка.

1 Ответ

2 голосов
/ 02 марта 2020

Я думаю, что хорошим руководством было бы посмотреть на прошлую работу, которая была проделана на местах. Хорошим обзором для начала является выступление Себастьяна Рудера , которое дает вам множество подходов, в зависимости от уровня информации, которую вы имеете о вашем исходном / целевом языке. Это в основном то, что делает MUSE, и я относительно уверен, что он считается современным.

Основная идея c в большинстве подходов состоит в том, чтобы отобразить пространства внедрения таким образом, чтобы вы минимизировали некоторое (обычно евклидово) расстояние между ними (см. стр. 16 ссылки). Очевидно, что это лучше всего работает, если у вас есть известный словарь, и вы можете точно отобразить различные переводы, и работает еще лучше, если два языка имеют схожие свойства linguisti c (если честно, не совсем уверены в отношении хинди и английского языка sh).

Еще один недавний подход - Multilingual-BERT (mBERT) , или аналогично XLM-RoBERTa , но они изучают встраивания на основе общего доступа словарь . Это может быть менее желательным, если у вас есть морфологически разнородные языки, а также есть недостаток, заключающийся в том, что они включают в себя множество других, не связанных между собой языков.

В противном случае мне неясно, что именно вы ожидаете от "обычное вложение", но с удовольствием расшифрую ответ после уточнения.

...