Есть ли способ для Gensim генерировать строго биграммы, триграммы в списке слов?
Я могу успешно генерировать униграммы, биграммы, триграммы, но я хотел бы извлечь только биграммы, триграммы.
Например, в списке ниже:
words = [['the', 'mayor', 'of', 'new', 'york', 'was', 'there'],["i","love","new","york"],["new","york","is","great"]]
Я использую
bigram = gensim.models.Phrases(words, min_count=1, threshold=1)
bigram_mod = gensim.models.phrases.Phraser(bigram)
words_bigram = [bigram_mod[doc] for doc in words]
Это создает список униграмм и биграмм следующим образом:
[['the', 'mayor', 'of', 'new_york', 'was', 'there'],
['i', 'love', 'new_york'],
['new_york', 'is', 'great']]
У меня вопрос: есть ли способ (кроме регулярных выражений) строго извлекать биграммы, чтобы в этом примере результатом был только "new_york"?