У меня проблема с выходными данными Tfidf Vectorizer, и я протестировал множество решений, приведенных в других темах, и ничего не работает.
У меня есть CSV с двумя столбцами: один тест столбца, содержащий ... текст и счет столбца.И я хочу иметь возможность предсказать новый счет на основе текста, который я смогу ввести.Я думаю, что лучшее решение состоит в том, чтобы использовать линейную регрессию на основе анализа tfidf для текста.
Мой код следующий:
datas = pandas.read_csv('Data/gucci-account-
prediction.csv',delimiter=';')
datas['score'] = datas['retweets'] + datas['likes']
import re
def tokenizer(text):
if text:
result = re.findall('[a-z]{2,}', text.lower())
else:
result = []
return result
X = datas['text'].values
y = datas['score'].values
vect = TfidfVectorizer(tokenizer=tokenizer,stop_words='english',dtype=np.float32)
X_train = vect.fit_transform(X)
lr = Ridge(alpha=1.0)
lr.fit(X_train,y)
И у меня есть следующая ошибка: Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('float64').
Я уже проверил, и мой фрейм данных (до векторизации) не содержит значения nan, поэтому я не понимаю, почему моя матрица X будет содержать любой nan илибесконечное значение.
У вас есть решение, чтобы оно работало?Спасибо