Question

У меня есть 3 столбца: идентификатор, настроение, обзор.Я составляю векторы и помещаю их через RandomForest, чтобы сделать прогноз настроения.

В следующей строке: forest = forest.fit (trainDataVecs, train ["sentiment"])

Я получаю следующую ошибку: Ошибка: ValueError: Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('float32').

Я получил его в очень маленьком примере файла, ноон отказывается работать на моем большом главном.Я проверил, и я на 100% уверен, что нет записей NULL.Некоторые обзоры очень длинные, и я думаю, что должно быть что-то, что длина обзора где-то является проблемой.

Пожалуйста, помогите!

Dipack · Answer 1 · 07 декабря 2018

Проблема, кажется, когда вы читаете один из числовых столбцов.Я хотел бы предложить, чтобы при чтении данных из источника вы меняли тип на более точный, например np.float64 или более, а также удаляли недопустимые значения, например:

# A is the vector you want to clean
A[~np.isnan(A)] = 0.0

Подгонка модели RandomForest, но получение ошибки панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подгонка модели RandomForest, но получение ошибки панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов