Перспектива слов векторов косинус сходство - «союзник» ближе к «могущественному», чем «друг» - PullRequest
2 голосов
/ 11 июля 2019

Когда я проверял два слова «союзник» и «друг» на сходство косинусов (используя функцию, проверенную на корректность реализации) в python 3.6 с векторами слов GloVe, сходство косинусов было 0.6274969008615137.Однако когда я проверил «союзник» и «друг», результат был 0.4700224263147646.

Кажется, что «союзник» и «друг», два существительных, представленных как синонимы, должны иметь большее косинусное сходство, чем «союзник» и «могущественный», существительное и едва родственное слово.

Не понимаю ли я идею векторов слов или косинусное сходство?

1 Ответ

1 голос
/ 11 июля 2019

Добро пожаловать в чудесное слово изученных вложений. И к его подводным камням.
Я пытаюсь объяснить это на более высоком уровне, но не стесняйтесь читать по этой теме, так как , кажется, довольно много литературы по проблеме. Нейронные сети в целом страдают от проблемы, заключающейся в том, что результаты не являются интуитивно понятными для людей - они часто просто обнаруживают статистически значимое сходство в ваших данных обучения, независимо от того, являются ли они желаемыми или нет

Чтобы взять ваш конкретный пример (GloVe) и проанализировать некоторые проблемы, приведем официальную документацию :

GloVe - неконтролируемый алгоритм обучения для получения вектора представления для слов. Обучение проводится по агрегированным глобальным статистика совпадений слово-слово из корпуса, и в результате представления демонстрируют интересные линейные подструктуры слова векторное пространство.

Что это говорит нам о том, что изученные представления в целом зависят от контекста конкретного слова. Представьте, что если у нас (например) есть обучающий набор, состоящий из ряда новостных статей, то более вероятно встретить статьи, в которых говорится о «союзниках» / «союзниках» и «влиятельных» в одном и том же контексте (подумайте о политических новостях). статьи), по сравнению со статьями, в которых "синоним" и "друг" упоминаются в синонимичном контексте.

Если вы на самом деле не сталкиваетесь с множеством примеров, в которых контекст для обоих слов очень похож (и, следовательно, выученное выражение схоже), маловероятно, что ваше выученное представление будет близким / похожим.

Суть встраивания заключается в том, что, хотя мы, безусловно, можем найти такие контрпримеры в наших данных, в целом они обеспечивают действительно хорошую числовую интерпретацию нашего словаря, по крайней мере, для наиболее распространенных языков в исследованиях. (Английский, испанский, французский, наверное, самые популярные).
Таким образом, возникает вопрос: хотите ли вы тратить время на ручное аннотирование целого числа слов, возможно, забывая об ассоциациях в их соответствующем контексте (например, Apple может быть хорошим примером как для фруктов, так и для компании, но не для всех, кто слышит? Тойота также думает об этом как очень распространенная японская фамилия).

Это, а также очевидная автоматизированная обработка вложений слов делают их такими привлекательными в настоящее время. Я уверен, что я потенциально упустил несколько очевидных моментов, и я хочу добавить, что принятие встраиваний широко варьируется между различными областями исследований, поэтому, пожалуйста, примите это с недоверием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...