Я пытаюсь использовать imblearn.under_sampling.CondensedNearestNeighbour
для выборки моего набора данных,
У меня есть следующий код
def balance_dataset(features,target):
rus = CondensedNearestNeighbour(random_state=42)
x_rus, y_rus = rus.fit_sample(features, target)
def build_generator(feature_dir):
feature_df = pd.read_csv(feature_dir)
feature_df.dropna(how='any')
feature_df = feature_df.set_index('Timestamp')
feature_target = feature_df.pop('Label')
x_balance, y_balance = balance_datset(feature_df ,feature_target)
, когда я пытаюсь сбалансировать набор данных с помощью balance_dataset
метод, ошибка показывает
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
Я пытался преобразовать свой набор данных в float32
, и он все еще выдает ту же ошибку, и, как показано в приведенном выше коде, я отбросил все значения na
.
Я использовал тот же код с RandomUnderSampler
, который отлично работает.
Есть предложения по решению этой проблемы? Спасибо!