Question

Я взял набор данных для прогнозирования настроения из текстового обзора, сначала я очищаю данные (удаление знаков препинания, удаление стоп-слов, токенизация). Когда я пытаюсь передать данные Tokenized в качестве входных данных для векторизатора TFIDF, я получаю AttributeError: у объекта «list» нет атрибута «lower». Пожалуйста, помогите мне преодолеть эту ошибку.

Векторизатор TFIDF

2 [ Attribute Error ] 2 : https://i.stack.imgur.com/VSsHu.png

Jindřich · Answer 1 · 21 января 2020

Векторизация TF-IDF работает с необработанным (то есть, не токенизированным) текстом и выполняет токенизацию самостоятельно.

Для метода fit_transform требуется итерация строк. Применение токенайзера NLTK превращает строки рецензирования в список строк (список токенов).

Если по какой-то причине вы не доверяете внутреннему токенизатору в scikit-learn, вы можете использовать собственный токенизатор:

tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)

Tfidf Vectorizer

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Tfidf Vectorizer

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы