Выровненные по тексту векторы слов для перевода гомографий - PullRequest
0 голосов
/ 25 марта 2020

Гомограф - это слово, которое имеет ту же письменную форму, что и другое слово, но имеет другое значение, например вправо в следующих предложениях:

  • Успех заключается в принятии правильных решений.
  • Поворот вправо после траффи c light

Слово Engli sh «право» в первом случае переводится на Swedi sh как «rätt» и «höger» во втором случае. Правильный перевод возможен, если взглянуть на контекст (окружающие слова).

Вопрос 1. Интересно, может ли встраивание слова с выравниванием по фастексту помочь в переводе этих гомографических слов или слов с несколькими возможные переводы на другой язык?

[EDIT] Цель - , а не , чтобы запросить модель для правильного перевода. Цель состоит в том, чтобы выбрать правильный перевод, когда указана следующая информация:

  • два (или несколько) возможных вариантов перевода на целевом языке, например "rätt" и "höger". "
  • окружающие слова на исходном языке

Вопрос 2. Я загрузил engli sh предварительно обученную модель векторов и Engli sh выровненная векторная модель . В то время как оба обучались на статьях Википедии, я заметил, что расстояния между двумя словами были сохранены, но размер файлов набора данных (wiki.en.ve c vs wiki.en.align.ve c) заметно разные (1ГБ). Разве это не имеет смысла, если мы будем использовать только выровненную версию? Какая информация не захватывается выровненным набором данных?

1 Ответ

1 голос
/ 25 марта 2020

В вопросе 1, я полагаю, возможно, что эти «выровненные» векторы могли бы помочь преобразовать гомографии, но все еще сталкиваются с проблемой, что у любого токена есть только один вектор - даже если этот токен имеет несколько значений.

Вы предполагаете, что уже знаете, что right[en] может быть переведено в rätt[se] или höger[se] из некоторой внешней таблицы? (То есть вы не используете выровненные векторы слов в качестве основного средства перевода, а просто добавление к другим методам?)

Если это так, то одним из методов, который может помочь, было бы выяснить, какой из rätt[se] или höger[se] ближе к другим словам, которые окружают ваш конкретный экземпляр right[en]. (Вы можете подсчитать близость каждого ранга к каждому слову в пределах n пятен right[en] или вычислить их косинусное сходство со средним значением n слов вокруг right[en], для пример.)

(Вы могли бы даже сделать это с невыровненными векторами слов, если ваши более точные слова имеют несколько, альтернативных, не гомографических / не многозначных переводов в английском языке. sh. Например, чтобы определить, какой смысл right[en] более вероятен, вы можете использовать невыровненные векторы слов Engli sh для correct[en] и rightward[en] - менее многозначных коррелятов rätt[se] & höger[se] - чтобы проверить сходство с окружающими словами.)

Текст, который может создать другие идеи: " Linear algebrai c структура значений слов ", которая, вполне Удивительно, но он способен выявлять альтернативные значения токенов гомографа, даже когда первоначальная тренировка по векторам слов была , а не со знанием слов. (Могут ли «атомы дискурса» в их модели быть одинаково обнаруживаемыми в слитых / выровненных многоязычных векторных пространствах, а затем слова «близость контекста» к разным атомам - хорошее руководство для устранения неоднозначности слов? »)

Для вопроса 2 подразумевается, что выровненный набор слов меньше по размеру. Вы проверили, если это только потому, что оно содержит меньше слов? Это кажется самым простым объяснением, и просто проверка, какие слова пропущены, даст вам понять, что вы теряете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...