Этот вопрос занял мое мнение и после прочтения статьи, и, тем более, после того, как эмпирически выяснилось, что это действительно так.u
и s6
результирующие вложения будут очень похожи в пространстве:
Чтобы понять, почему это действительно происходит, сначала мы должны понять, как пропускаетграмм модель встраивает информацию, которая является механизмом, который потребляет случайные прогулки.Модель скип-граммы в конечном итоге генерирует подобные вложения для токенов, которые могут появляться в сходном контексте - но что это действительно означает с точки зрения модели скип-граммы?Если бы мы хотели внедрить структурную эквивалентность, мы бы предпочли обход по типу DFS (и дополнительно нам пришлось бы использовать адекватный размер окна для модели скип-граммы).Таким образом, случайные прогулки выглядят так:
1. s1 > u > s4 > s5 > s6 > s8
2. s8 > s6 > s5 > s4 > u > s1
3. s1 > s3 > u > s2 > s5 > s6
4. s7 > s6 > s5 > s2 > u > s3
.
.
n. .....
Что произойдет, так это то, что будет много прогулок, где u
и s6
появляются на прогулках, где их окружение одинаковое.Поскольку их окружение будет схожим, это означает, что их контекст похож и, как указано, похожий контекст == похожие вложения.
Кто-то может спросить насчет порядка?Ну, порядок на самом деле не имеет значения, так как модель скип-граммы использует размер окна для генерации пар из каждого предложения, в приведенной мною ссылке вы сможете лучше понять эту концепцию.
Итак, если выможет создавать прогулки, которые создадут одинаковый контекст для двух узлов, их вложения будут одинаковыми.