Есть ли способ понять особенности вывода word2vec? - PullRequest
1 голос
/ 11 ноября 2019

Я хочу понять, что означает каждое измерение в выводе word2vec.

Например, если я создаю дерево решений с одной горячей закодированной переменной, я могу точно сказать, какая категория в категориальной переменной отвечает зарасколОднако, если я использую вложения, я не могу объяснить причину этих расщеплений.

Мне известен известный пример вложения (король) - вложение (мужчина) + вложение (женщина) = вложение (королева),Из этого примера мы можем сказать, что характеристика «роялти» была понята.

Я думаю, что можно было бы объединить сходные точки данных на основе косинусного сходства, чтобы получить некоторый контекст о том, что представляют собой выходные функции.

Например, если я получу 3 ближайших соседа точки данных: «Километр», «Дюйм» и «Миля». Я мог бы заключить, что «Длина» может быть причиной разделения в дереве решений. Однако мне было интересно, был ли другой путь.

1 Ответ

0 голосов
/ 11 ноября 2019

Во-первых, встраивание слов в основном генерируется без присмотра. Поэтому, когда это посеяно, фактически могут быть найдены различные атрибуты. Фактически, некоторые запуски Word2Vec могут никогда не получить атрибут для роялти или длины.

Более того, атрибуты несколько бессмысленны с точки зрения их порядка. До тех пор, пока один и тот же атрибут находится в том же месте, что и все, что имеет значение.

Исходя из этого, вложения Word в основном необходимо исследовать, чтобы соотнести их элементы с тем, что мы бы назвали. Интересный вопрос: есть ли элементы, которые не соответствуют нашим понятиям, но все же полезны для встраивания слов.

Что-то, что вас может заинтересовать, - это семантические онтологии и то, как они связывают различные семантические понятия.

...