В чем разница между Skip-граммой word2vec и CBOW w2v во время тренировки с библиотекой gensim? - PullRequest
0 голосов
/ 10 сентября 2018

Для скип-граммы word2vec обучающие образцы получаются следующим образом:

Sentence: The fox was running across the maple forest

Слово fox дает следующие пары для обучения:

fox-run, fox-across, fox-maple, fox-forest

и т. Д. За каждое слово. CBOW w2v использует обратный подход:

run-fox, across-fox, maple-fox, forest-fox

или forest слово:

fox-forest, run-forest, across-forest, maple-forest

Итак, мы получаем все пары. В чем разница между Skip-gram word2vec и CBOW w2v во время обучения с библиотекой gensim, если мы не указываем целевое слово при обучении в режиме CBOW? В обоих случаях используются все пары слов или нет?

1 Ответ

0 голосов
/ 10 сентября 2018

Только в скипграмме используются тренировочные пары вида (context_word)->(target_word).

В CBOW примерами обучения являются (average_of_multiple_context_words)->(target_word). Таким образом, когда ошибка из одного обучающего примера распространяется обратно, несколько контекстных слов получают одно и то же корректирующее подталкивание.

...