Вход содержит Nan с выходом векторизатора Tfidf - PullRequest
0 голосов
/ 21 ноября 2018

У меня проблема с выходными данными Tfidf Vectorizer, и я протестировал множество решений, приведенных в других темах, и ничего не работает.

У меня есть CSV с двумя столбцами: один тест столбца, содержащий ... текст и счет столбца.И я хочу иметь возможность предсказать новый счет на основе текста, который я смогу ввести.Я думаю, что лучшее решение состоит в том, чтобы использовать линейную регрессию на основе анализа tfidf для текста.

Мой код следующий:

datas = pandas.read_csv('Data/gucci-account- 
prediction.csv',delimiter=';')
datas['score'] = datas['retweets'] + datas['likes']
import re

def tokenizer(text):
    if text:
        result = re.findall('[a-z]{2,}', text.lower())
    else:
        result = []
    return result

X = datas['text'].values
y = datas['score'].values
vect = TfidfVectorizer(tokenizer=tokenizer,stop_words='english',dtype=np.float32)
X_train = vect.fit_transform(X)
lr = Ridge(alpha=1.0)
lr.fit(X_train,y)

И у меня есть следующая ошибка: Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('float64').

Я уже проверил, и мой фрейм данных (до векторизации) не содержит значения nan, поэтому я не понимаю, почему моя матрица X будет содержать любой nan илибесконечное значение.

У вас есть решение, чтобы оно работало?Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...