Я использую TfidfVectorizer
со следующими параметрами:
smooth_idf=False, sublinear_tf=False, norm=None, analyzer='word', ngram_range=(1,2)
Я векторизовал следующий текст: "красное солнце, розовое конфета. Зеленый цветок."
Здесь вывод get_feature_names():
['candy', 'candy green', 'coffee', 'flower', 'green', 'green flower', 'hate', 'icecream', 'like', 'moon', 'pink', 'pink candy', 'red', 'red sun', 'sun', 'sun pink']
Поскольку " candy " и " green " являются частью отдельных предложений, почему "candy green" n-грамм создан?
Есть ли способ предотвратить создание n-грамм, порождающих несколько предложений?