Является ли модель скип-граммы в word2vec расширенной версией модели N-Gram?скип-грамм против скип-грамм? - PullRequest
0 голосов
/ 27 августа 2018

Модель скип-граммы word2vec использует мелкую нейронную сеть для изучения встраивания слова с данными (входное слово, контекстное слово).Когда я читал учебники для модели скип-граммы, там не было никаких упоминаний о N-грамме.Однако я натолкнулся на несколько онлайн-дискуссий, в которых люди утверждают, что модель скип-граммы в word2vec - это расширенная версия модели N-Gram .Также я не совсем понимаю это " k-skip-n-грамм " на следующей странице Википедии.

Википедия процитировала статью 1992 года для " skip-grams *"1008 * ", так что я предполагаю, что это не модель скип-граммы в word2vec, верно?Еще одна статья, касающаяся этого «скип-грамма»: https://homepages.inf.ed.ac.uk/ballison/pdf/lrec_skipgrams.pdf. Это очень запутанно.Почему никто не может это прояснить.

Источник в Википедии и онлайн-обсуждение:

1 Ответ

0 голосов
/ 27 августа 2018

Я согласен, что именование здесь немного сложнее.Вы можете проверить учебное пособие здесь.

https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-skip-gram.html

Так что в word2vec в его простейшем варианте скип-граммы мы можем представить весь корпус как много пар, состоящих из целевого слова и выходного словачто мы хотим предсказать с нашей нейронной сетью.Таким образом, предложение «быстрая коричневая лиса перепрыгивает через ленивую собаку» и слово «коричневый» с окном-4 нашей модели word2vec может быть представлено как: (target_word, word_to_predict) (коричневый, быстрый) (коричневый, the) (коричневый, лиса) (коричневый, прыгает) Затем мы переходим к следующему слову «лиса» и так далее.Таким образом, мы используем скип-граммы для обучения нашей нейронной сети.Я не видел "k-skip-n-грамм" раньше, но, насколько я понимаю, мы получили 4-skip-биграммы

...