Почему в n-граммовой модели символов есть место? - PullRequest
0 голосов
/ 12 октября 2019

Я изучаю класс CountVector, и у меня возникли следующие вопросы:

In [45]: ngram_vec = CountVectorizer(analyzer='char_wb', ngram_range=(1,3))                                                                                                           

In [46]: counts = ngram_vec.fit_transform(['words', 'wprds'])                                                                                                                         

In [47]: ngram_vec.vocabulary_                                                                                                                                                        
Out[47]: 
{' ': 0,
 'w': 18,
 'o': 7,
 'r': 13,
 'd': 4,
 's': 16,
 ' w': 1,
 'wo': 19,
 'or': 8,
 'rd': 14,
 'ds': 5,
 's ': 17,
 ' wo': 2,
 'wor': 20,
 'ord': 9,
 'rds': 15,
 'ds ': 6,
 'p': 10,
 'wp': 21,
 'pr': 11,
 ' wp': 3,
 'wpr': 22,
 'prd': 12}

Откуда берется словарь? Индекс 0, 1, 17, 2 и т. Д.

Если я изменяю на:

ngram_range=(3,3)

Результат вокала становится:

{' wo': 0,
 'wor': 6,
 'ord': 3,
 'rds': 5,
 'ds ': 2,
 ' wp': 1,
 'wpr': 7,
 'prd': 4}

Что это значит:

ngram_range : tuple (min_n, max_n)
The lower and upper boundary of the range of n-values for different n-grams to be extracted. 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...