Я пытаюсь сгенерировать биграммы, используя gensim, но gensim использует концепцию теоремы о коллокации, которая в основном основана на совместном появлении некоторых фраз.
Я просто ищу биграмм следующим образом.
"I", "read", "a", "book", "about", "the", "history", "of", "America"
"I read", "read a", "a book", "book about", "about the", "the history", "history of", "of America"
Код ссылки, который можно использовать:
from gensim.test.utils import datapath
from gensim.models.word2vec import Text8Corpus
from gensim.models.phrases import Phrases, Phraser
sentences = Text8Corpus(datapath('testcorpus.txt'))
phrases = Phrases(sentences, min_count=1, threshold=1) # train model
phrases[[u'trees', u'graph', u'minors']]