Подгонка модели RandomForest, но получение ошибки панд - PullRequest
0 голосов
/ 07 декабря 2018

У меня есть 3 столбца: идентификатор, настроение, обзор.Я составляю векторы и помещаю их через RandomForest, чтобы сделать прогноз настроения.

В следующей строке: forest = forest.fit (trainDataVecs, train ["sentiment"])

Я получаю следующую ошибку: Ошибка: ValueError: Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('float32').

Я получил его в очень маленьком примере файла, ноон отказывается работать на моем большом главном.Я проверил, и я на 100% уверен, что нет записей NULL.Некоторые обзоры очень длинные, и я думаю, что должно быть что-то, что длина обзора где-то является проблемой.

Пожалуйста, помогите!

1 Ответ

0 голосов
/ 07 декабря 2018

Проблема, кажется, когда вы читаете один из числовых столбцов.Я хотел бы предложить, чтобы при чтении данных из источника вы меняли тип на более точный, например np.float64 или более, а также удаляли недопустимые значения, например:

# A is the vector you want to clean
A[~np.isnan(A)] = 0.0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...