Для скип-граммы word2vec обучающие образцы получаются следующим образом:
Sentence: The fox was running across the maple forest
Слово fox
дает следующие пары для обучения:
fox-run, fox-across, fox-maple, fox-forest
и т. Д. За каждое слово. CBOW w2v использует обратный подход:
run-fox, across-fox, maple-fox, forest-fox
или forest
слово:
fox-forest, run-forest, across-forest, maple-forest
Итак, мы получаем все пары. В чем разница между Skip-gram word2vec и CBOW w2v во время обучения с библиотекой gensim, если мы не указываем целевое слово при обучении в режиме CBOW? В обоих случаях используются все пары слов или нет?