ОБНОВЛЕНО
Задача 1 : у меня есть набор данных, где много значений NaN
.Использование main.loc[main.isna().sum(axis=1) >= 2]
выходов для:
ID: GNDR COUNTRY ... BIKE CAR PBLC
1 0 NaN ... NaN NaN NaN
1 0 NaN ... NaN NaN NaN
16 1 UK ... 123 0 10232
Конечно, строки 0 и 1 должны быть удалены?
Проблема 2 : Например, если мой идентификатор больше 1, как показано выше, это означает, что этот человек ввел данные 16 раз.Таким образом, я хочу усреднить это так, чтобы люди, которые вводили данные только один раз, позже не показывали выбросы для моего персептрона.Я думал об итеративном усреднении всех строк с идентификатором больше 1 при загрузке данных в мой DataFrame.
КОД ОБРАЗЦА :
df_2 = pandas.read_csv('logs.csv', names=colnames_df_2, skiprows=[0])
df_2['ID']=df_2['ID'].apply(str)
main = df_1.merge(df_2, how='left', on='msno')
main.loc[main.isna().sum(axis=1) >= 2]
print(main)