Question

Я пытаюсь сгенерировать биграммы, используя gensim, но gensim использует концепцию теоремы о коллокации, которая в основном основана на совместном появлении некоторых фраз.

Я просто ищу биграмм следующим образом.

"I", "read", "a", "book", "about", "the", "history", "of", "America"
"I read", "read a", "a book", "book about", "about the", "the history", "history of", "of America"

Код ссылки, который можно использовать:

from gensim.test.utils import datapath
from gensim.models.word2vec import Text8Corpus
from gensim.models.phrases import Phrases, Phraser
sentences = Text8Corpus(datapath('testcorpus.txt'))
phrases = Phrases(sentences, min_count=1, threshold=1)  # train model
phrases[[u'trees', u'graph', u'minors']]

Н-грамм с использованием генсима

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Н-грамм с использованием генсима

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы