scikit-Learn CountVectorizer словарь с регулярным выражением - PullRequest
0 голосов
/ 09 октября 2018

Имеет корпус, подобный этому:

'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?'

Я использую этот словарь ["this", "document", "this document"].После подгонки векторизатора я получаю следующий результат:

[[1 1 0]
[1 2 1]
[1 0 0]
[1 1 0]]

, что правильно.Есть ли способ, которым я могу использовать регулярные выражения (или что-то еще), чтобы использовать функцию «этот документ» в первом ряду моего корпуса?Точнее, это [1 1 1], чем [1 1 0]?

Моя строка такова: ["Это первый документ"].Могу ли я как-то «удалить» слова «первым» (или какими-либо другими словами), чтобы получить функцию «этот документ»?Может быть, с token_pattern?

1 Ответ

0 голосов
/ 09 октября 2018

Просто разберись.На самом деле я хотел создать функции, основанные на всех словосочетаниях в моих корпусах (униграммах и биграммах).Например, моя строка: это первый документ.Извлеченные функции:

this, 
is, 
the, 
first, 
document, 
this is, 
this the, 
this document, 
is the, 
is first, 
is document, 
the first, 
the document, 
first document

Я сделал это, написав свой собственный токенизатор и используя его в параметре токенизатора моего CountVectorizer ().

...