Я хочу извлечь и распечатать биграммы с помощью Gensim. Для этого я использовал этот код в GoogleColab:
import gensim.downloader as api
from gensim.models import Word2Vec
from gensim.corpora import WikiCorpus, Dictionary
from gensim.models import Phrases
from gensim.models.phrases import Phraser
from collections import Counter
data = api.load("text8") # wikipedia corpus
bigram = Phrases(data, min_count=3, threshold=10)
cntr = Counter()
for key in bigram.vocab.keys():
if len(key.split('_')) > 1:
cntr[key] += bigram.vocab[key]
for key, counts in cntr.most_common(50):
print(key, " - ", counts)
Но есть ошибка:
![TypeError](https://i.stack.imgur.com/eIjwF.png)
Затем я попробовал это:
cntr = Counter()
for key in bigram.vocab.keys():
if len(key.split(b'_')) > 1:
cntr[key] += bigram.vocab[key]
for key, counts in cntr.most_common(50):
print(key, " - ", counts)
А потом:
![again](https://i.stack.imgur.com/ir6eB.png)
Что не так?