Question

У меня есть фрейм данных, например:

   A   B   C   D   E   F   G
0  9   34  1   1   Nan 9   3
1  Nan 34  0   9   Nan 0   2
2  0   8  Nan  3   9   11  0
3  0   8  15   3   9   11  0
4  Nan 6   1   3   Nan  2  3
5  1   6   1   3   44   2  3

Я хочу проверить, какие строки имеют повторяющиеся значения в столбцах B, D и G. Как видите, строки 2 и 3 имеют дублированные значенияи так же, как строки 4 и 5. Я должен удалить дублирующиеся строки, но я хочу удалить те, которые имеют значения Nan (2 и 4).

Я пробовал метод df.dropna (), но он имеет только параметры

 keep = 'last', 
 keep = 'first' or 
 keep='False',

, и ни один из них не решил мою проблему.

Мой ожидаемый результат -

   A   B   C   D   E   F   G
0  9   34  1   1   Nan 9   3
1  Nan 34  0   9   Nan 0   2
3  0   8  15   3   9   11  0
5  1   6   1   3   44   2  3

Как я могу это сделать?Спасибо

rafaelc · Answer 1 · 21 января 2019

Используйте & с условиями duplicated и isnull для независимого от столбца способа достижения этого

>>> to_drop = df.dropna(axis=1).duplicated(keep=False) & df.isnull().any(1)
>>> df.loc[~to_drop]

Vaishali · Answer 2 · 21 января 2019

Вы можете использовать groupby с first, который возвращает первое ненулевое значение

df.groupby(['B', 'D', 'G'], as_index = False, sort = False).first().reindex(columns = df.columns)

    A   B   C       D   E       F   G
0   9.0 34  1.0     1   NaN     9   3
1   NaN 34  0.0     9   NaN     0   2
2   0.0 8   15.0    3   9.0     11  0
3   1.0 6   1.0     3   44.0    2   3

pygo · Answer 3 · 21 января 2019

Просто drop.duplicates() с помощью subset вы можете сделать это.

last: удалить дубликаты, кроме последнего вхождения.

>>> df.drop_duplicates(subset=['B', 'D', 'G'], keep="last")
     A   B     C  D     E   F  G
0  9.0  34   1.0  1   NaN   9  3
1  NaN  34   0.0  9   NaN   0  2
3  0.0   8  15.0  3   9.0  11  0
5  1.0   6   1.0  3  44.0   2  3

Chris · Answer 4 · 21 января 2019

Вы также можете использовать логическое индексирование:

new = df[df[list('BDG')].duplicated(keep=False)]
df.iloc[~df.index.isin(new[new.isnull().any(1)].index)]

    A   B   C   D   E   F   G
0   9   34  1   1   NaN 9   3
1   NaN 34  0   9   NaN 0   2
3   0   8   15  3   9   11  0
5   1   6   1   3   44  2   3

jpp · Answer 5 · 21 января 2019

Вы можете считать нули по строкам, сортировать по этому числу, а затем использовать drop_duplicates:

df['null_count'] = df.isnull().sum(1)

df = df.sort_values('null_count')\
       .drop_duplicates(['B', 'D', 'G'])\
       .sort_index()

print(df)

     A     B     C    D     E     F    G  null_count
0  9.0  34.0   1.0  1.0   NaN   9.0  3.0           1
1  NaN  34.0   0.0  9.0   NaN   0.0  2.0           2
3  0.0   8.0  15.0  3.0   9.0  11.0  0.0           0
5  1.0   6.0   1.0  3.0  44.0   2.0  3.0           0

Альтернатива, если вы хотите избежать вспомогательного столбца:

df = df.iloc[df.isnull().sum(1).values.argsort()]\
       .drop_duplicates(['B', 'D', 'G'])\
       .sort_index()

aws_apprentice · Answer 6 · 21 января 2019

Я не эксперт pandas, но вот один из способов добиться этого:

subset = df[['B', 'D', 'G']]

to_keep = df[~subset.duplicated(keep=False)]

     A   B  C  D    E  F  G
0    9  34  1  1  NaN  9  3
1  NaN  34  0  9  NaN  0  2

to_keep.append(df[subset.duplicated(keep=False)].dropna(), ignore_index=True)

     A   B   C  D    E   F  G
0    9  34   1  1  NaN   9  3
1  NaN  34   0  9  NaN   0  2
2    0   8  15  3    9  11  0
3    1   6   1  3   44   2  3

Если вы хотите оставить индекс как есть, сбросьте флаг ignore_index

Как удалить дублирующиеся строки с NaN и сохранить те, которые не имеют

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как удалить дублирующиеся строки с NaN и сохранить те, которые не имеют

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов