Имеет корпус, подобный этому:
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?'
Я использую этот словарь ["this", "document", "this document"].После подгонки векторизатора я получаю следующий результат:
[[1 1 0]
[1 2 1]
[1 0 0]
[1 1 0]]
, что правильно.Есть ли способ, которым я могу использовать регулярные выражения (или что-то еще), чтобы использовать функцию «этот документ» в первом ряду моего корпуса?Точнее, это [1 1 1], чем [1 1 0]?
Моя строка такова: ["Это первый документ"].Могу ли я как-то «удалить» слова «первым» (или какими-либо другими словами), чтобы получить функцию «этот документ»?Может быть, с token_pattern?