Как я могу проверить токенизированные строки внутри TfidfVertorizer()
?Если я ничего не передам в аргументах, TfidfVertorizer()
будет токенизировать строку с некоторыми предопределенными методами.Я хочу посмотреть, как он разбивает строки на строки, чтобы мне было проще настраивать мою модель.
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ['This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?']
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
Я хочу что-то вроде этого:
>>>vectorizer.get_processed_tokens()
[['this', 'is', 'first', 'document'],
['this', 'document', 'is', 'second', 'document'],
['this', 'is', 'the', 'third', 'one'],
['is', 'this', 'the', 'first', 'document']]
Как я могу это сделать?