Добро пожаловать в чудесное слово изученных вложений. И к его подводным камням.
Я пытаюсь объяснить это на более высоком уровне, но не стесняйтесь читать по этой теме, так как , кажется, довольно много литературы по проблеме.
Нейронные сети в целом страдают от проблемы, заключающейся в том, что результаты не являются интуитивно понятными для людей - они часто просто обнаруживают статистически значимое сходство в ваших данных обучения, независимо от того, являются ли они желаемыми или нет
Чтобы взять ваш конкретный пример (GloVe) и проанализировать некоторые проблемы, приведем официальную документацию :
GloVe - неконтролируемый алгоритм обучения для получения вектора
представления для слов. Обучение проводится по агрегированным глобальным
статистика совпадений слово-слово из корпуса, и в результате
представления демонстрируют интересные линейные подструктуры слова
векторное пространство.
Что это говорит нам о том, что изученные представления в целом зависят от контекста конкретного слова. Представьте, что если у нас (например) есть обучающий набор, состоящий из ряда новостных статей, то более вероятно встретить статьи, в которых говорится о «союзниках» / «союзниках» и «влиятельных» в одном и том же контексте (подумайте о политических новостях). статьи), по сравнению со статьями, в которых "синоним" и "друг" упоминаются в синонимичном контексте.
Если вы на самом деле не сталкиваетесь с множеством примеров, в которых контекст для обоих слов очень похож (и, следовательно, выученное выражение схоже), маловероятно, что ваше выученное представление будет близким / похожим.
Суть встраивания заключается в том, что, хотя мы, безусловно, можем найти такие контрпримеры в наших данных, в целом они обеспечивают действительно хорошую числовую интерпретацию нашего словаря, по крайней мере, для наиболее распространенных языков в исследованиях. (Английский, испанский, французский, наверное, самые популярные).
Таким образом, возникает вопрос: хотите ли вы тратить время на ручное аннотирование целого числа слов, возможно, забывая об ассоциациях в их соответствующем контексте (например, Apple может быть хорошим примером как для фруктов, так и для компании, но не для всех, кто слышит? Тойота также думает об этом как очень распространенная японская фамилия).
Это, а также очевидная автоматизированная обработка вложений слов делают их такими привлекательными в настоящее время. Я уверен, что я потенциально упустил несколько очевидных моментов, и я хочу добавить, что принятие встраиваний широко варьируется между различными областями исследований, поэтому, пожалуйста, примите это с недоверием.