В вопросе 1, я полагаю, возможно, что эти «выровненные» векторы могли бы помочь преобразовать гомографии, но все еще сталкиваются с проблемой, что у любого токена есть только один вектор - даже если этот токен имеет несколько значений.
Вы предполагаете, что уже знаете, что right[en]
может быть переведено в rätt[se]
или höger[se]
из некоторой внешней таблицы? (То есть вы не используете выровненные векторы слов в качестве основного средства перевода, а просто добавление к другим методам?)
Если это так, то одним из методов, который может помочь, было бы выяснить, какой из rätt[se]
или höger[se]
ближе к другим словам, которые окружают ваш конкретный экземпляр right[en]
. (Вы можете подсчитать близость каждого ранга к каждому слову в пределах n пятен right[en]
или вычислить их косинусное сходство со средним значением n слов вокруг right[en]
, для пример.)
(Вы могли бы даже сделать это с невыровненными векторами слов, если ваши более точные слова имеют несколько, альтернативных, не гомографических / не многозначных переводов в английском языке. sh. Например, чтобы определить, какой смысл right[en]
более вероятен, вы можете использовать невыровненные векторы слов Engli sh для correct[en]
и rightward[en]
- менее многозначных коррелятов rätt[se]
& höger[se]
- чтобы проверить сходство с окружающими словами.)
Текст, который может создать другие идеи: " Linear algebrai c структура значений слов ", которая, вполне Удивительно, но он способен выявлять альтернативные значения токенов гомографа, даже когда первоначальная тренировка по векторам слов была , а не со знанием слов. (Могут ли «атомы дискурса» в их модели быть одинаково обнаруживаемыми в слитых / выровненных многоязычных векторных пространствах, а затем слова «близость контекста» к разным атомам - хорошее руководство для устранения неоднозначности слов? »)
Для вопроса 2 подразумевается, что выровненный набор слов меньше по размеру. Вы проверили, если это только потому, что оно содержит меньше слов? Это кажется самым простым объяснением, и просто проверка, какие слова пропущены, даст вам понять, что вы теряете.