Модель скип-граммы, которую я обычно видел, представляет собой трехслойную нейронную сеть со скрытым слоем проекции / внедрения. Слой вложения имеет весовую матрицу вложения, которая в конечном итоге станет вектором вложения слов в корпус. Слой softmax (выходной слой) также имеет матрицу весов, которая непосредственно не представляет никаких слов. Здесь я называю эту модель скип-грамм модель 1 .
![enter image description here](https://i.stack.imgur.com/8Z5vG.png)
Я читаю книгу . В упомянутой книге есть оригинальный алгоритм скип-граммы, который отличается от приведенного выше. Здесь я называю эту «оригинальную» модель скип-граммы как скип-грамм модель 2 . Согласно этой книге
Алгоритм скип-граммы, обсуждавшийся до этого момента в книге,
на самом деле улучшение по сравнению с оригинальным алгоритмом пропуска грамм
в оригинальной статье Миколова и др., опубликованной в 2013 году.
В этой статье алгоритм не использовал промежуточный скрытый слой для
выучить представления. В отличие от оригинального алгоритма
два разных встраиваемых или проекционных слоя (вход и выход
вложения на рисунке 4.1) и определили функцию стоимости, полученную из
сами вложения:
![enter image description here](https://i.stack.imgur.com/9W6zd.png)
Мой первый вопрос: где я могу найти «оригинальную статью»? Кажется, в статье Эффективная оценка представлений слов в векторном пространстве Модель скип-граммы - это модель 1, а не выше оригинальной модели 2.
Есть некоторые предположения, когда люди говорят, что номинирование softmax вычисляет векторное сходство. Например, в ответе mbatchkarov он дал объяснение вычисления softmax:
Числитель - это в основном сходство между словами c (
контекст) и w (целевое) слово. Знаменатель вычисляет
сходство всех других контекстов c1 и целевого слова w.
Второй вопрос: является ли это «исходной» моделью скип-граммы 2? Поскольку в обычной модели скип-граммы 1 веса выходного слоя представляют собой просто веса нейронной сети, а не векторные представления для слов.