Я изучаю класс CountVector, и у меня возникли следующие вопросы:
In [45]: ngram_vec = CountVectorizer(analyzer='char_wb', ngram_range=(1,3))
In [46]: counts = ngram_vec.fit_transform(['words', 'wprds'])
In [47]: ngram_vec.vocabulary_
Out[47]:
{' ': 0,
'w': 18,
'o': 7,
'r': 13,
'd': 4,
's': 16,
' w': 1,
'wo': 19,
'or': 8,
'rd': 14,
'ds': 5,
's ': 17,
' wo': 2,
'wor': 20,
'ord': 9,
'rds': 15,
'ds ': 6,
'p': 10,
'wp': 21,
'pr': 11,
' wp': 3,
'wpr': 22,
'prd': 12}
Откуда берется словарь? Индекс 0, 1, 17, 2 и т. Д.
Если я изменяю на:
ngram_range=(3,3)
Результат вокала становится:
{' wo': 0,
'wor': 6,
'ord': 3,
'rds': 5,
'ds ': 2,
' wp': 1,
'wpr': 7,
'prd': 4}
Что это значит:
ngram_range : tuple (min_n, max_n)
The lower and upper boundary of the range of n-values for different n-grams to be extracted.