По этому топу есть множество вопросов и ответов c, но я не могу решить свою проблему.
Я пытаюсь использовать модель ADASYN из imblearn, чтобы сбалансировать свой набор данных.
Вот мой код:
df = pd.read_csv("data/"+filename, nrows=1000)
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df_imputed = df.fillna(df.mean())
X = df_imputed.drop(['target'], axis=1)
y = df_imputed.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
from imblearn.over_sampling import ADASYN
ada = ADASYN()
X_resampled, y_resampled = ada.fit_sample(X, y)
Но я получаю сообщение об ошибке:
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
в строке
X_resampled, y_resampled = ada.fit_sample(X, y)
Пара вопросов здесь:
- Как решить эту проблему? Это означает, как вы определяете данные, вызывающие эту проблему. В моем наборе данных почти 2300+ столбцов с характеристиками.
- Как вы его решаете?
Спасибо за ваше время!