В этом наборе данных идентификатор ссуды и идентификатор клиента одинаковы для каждой повторяющейся строки.Другие функции аналогичны и для дублирующих строк, за исключением того, что для некоторых дубликатов есть NaN в одной из этих строк и нет NaN для другой строки.Я хочу сохранить дублирующиеся строки, у которых нет NaN, но я не могу это сделать.Любая помощь по этой проблеме приветствуется.
Я пробовал этот код, но он выдает MemoryError, я не уверен, почему:
data[(~data.duplicated())|(data.notnull())]
Я столкнулся с MemoryError
.
Пример данных:
data = pd.DataFrame({
'Loan ID':list('aaabbc'),
'Customer ID':list('hhhttt'),
'C':[np.nan,8,9,4,2,3],
'D':[1,np.nan,5,7,1,np.nan]
})
print (data)
Loan ID Customer ID C D
0 a h NaN 1.0
1 a h 8.0 NaN
2 a h 9.0 5.0
3 b t 4.0 7.0
4 b t 2.0 1.0
5 c t 3.0 NaN