Векторизатор TFIDF для уже размеченного текста - PullRequest
0 голосов
/ 23 мая 2019

Я делаю классификацию текста, и у меня есть набор данных отзывов клиентов, который содержит текстовые данные, набор данных уже содержит нижний регистр, слово-токенизировано, а стоп-слова также удалены.Теперь проблема в том, что мой векторизатор TFIDF выдает ошибку, когда я пытаюсь выполнить fit_transform обучающего набора данных.

Есть ли способ заставить векторизатор tfidf работать с уже разбитым на текст текстом?

tf_idf_vectorizer = TfidfVectorizer (ngram_range= (1,2), max_df = 0,50, stop_words = stop_words_english, нижний регистр = False)

Features_train_Tfidf = tf_idf_vectorizer.fit_transform (Features_train)

TypeError: ожидаемая строка или байтовоподобный объект

...