Я использую CountVectorizer из sklearn python lib для векторизации корпуса из файлов с input='filename'
опцией для инициации CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
corpus1=['file_name1','file_name2',...]
count_vectorizer = CountVectorizer(input='filename')
MAT1 = count_vectorizer.fit_transform(corpus1)
Затем мне нужно использовать модель для преобразованияновый корпус, но в numpy.array (['str1', 'str2'])
corpus2 = numpy.array(['str1','str2'])
# ideally
MAT2 = count_vectorizer(input='content').transform(corpus2)
это обычно делается, когда CountVectorizer инициализируется с input='content'
, но я не 'Не знаю, как я могу указать новый тип ввода.
Любая идея сделать это или обходное решение?
Спасибо!