Tfidf Vectorizer - PullRequest
       36

Tfidf Vectorizer

0 голосов
/ 21 января 2020

Я взял набор данных для прогнозирования настроения из текстового обзора, сначала я очищаю данные (удаление знаков препинания, удаление стоп-слов, токенизация). Когда я пытаюсь передать данные Tokenized в качестве входных данных для векторизатора TFIDF, я получаю AttributeError: у объекта «list» нет атрибута «lower». Пожалуйста, помогите мне преодолеть эту ошибку. This is my Clean Text

Векторизатор TFIDF

2 [Attribute Error] 2 : https://i.stack.imgur.com/VSsHu.png

Error

1 Ответ

2 голосов
/ 21 января 2020

Векторизация TF-IDF работает с необработанным (то есть, не токенизированным) текстом и выполняет токенизацию самостоятельно.

Для метода fit_transform требуется итерация строк. Применение токенайзера NLTK превращает строки рецензирования в список строк (список токенов).

Если по какой-то причине вы не доверяете внутреннему токенизатору в scikit-learn, вы можете использовать собственный токенизатор:

tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)
...