Ошибка sklearn ValueError: Вход содержит NaN, бесконечность или слишком большое значение для dtype ('float32') - PullRequest
0 голосов
/ 07 ноября 2018

Я не знаком с python и пытаюсь запустить классификатор дерева решений в python с использованием библиотеки SKLEARN, и когда я запускаю код, я сталкиваюсь с ошибкой:

ValueError: Вход содержит NaN, бесконечность или слишком большое значение для dtype ('float32')

Я попытался использовать меньшее подмножество моей таблицы данных Excel, и код может выполняться с желаемыми результатами. Поэтому я подозреваю, что проблема в том, что мой набор данных слишком большой. Вот мой код, который вызывает сбой:

df_X = data_train[['DayOfWeek', 'Promo', 'StateHoliday']]
df_Y = data_train[['Sales_band']]

X_train, X_test, y_train, y_test = train_test_split(df_X, df_Y, random_state=1)
model = tree.DecisionTreeClassifier()
model.fit(X_train, y_train) // Line that causes crash
y_predict = model.predict(X_test)

print('The accuracy of the Decision Tree is', accuracy_score(y_test, y_predict))

1 Ответ

0 голосов
/ 11 ноября 2018

Возможно, в вашем наборе данных отсутствуют значения. Вы можете использовать dropna () для удаления всех строк, содержащих пропущенные значения, если это не повлияет на качество вашего прогноза / точность прогноза

...