Question

Для следующих серий drop_duplicates работает неправильно:

при использовании drop_duplicates(keep='first') должно возвращаться 4 значения:

, но на самом деле этовозвращает только первые 2 значения:

8672.0
8670.0

Что с ним не так или какие-либо предложения по использованию этого drop_duplicates для получения значений, которые я хочу?Большое вам спасибо.

jezrael · Answer 1 · 17 мая 2018

Я думаю, что нужны первые последовательные значения, поэтому решение сравнивается по shift ed значениям и фильтром по boolean indexing:

s1 = s[s.ne(s.shift())]
print (s1)
0     8672.0
4     8670.0
10    8672.0
20    8670.0
Name: col, dtype: float64

MaxU · Answer 2 · 17 мая 2018

DataFrame.drop_duplicates () удаляет все дубликаты, не только последовательные.

Предположим, s - это серия:

In [93]: s[s.diff().ne(0)]
Out[93]:
0     8672.0
3     8670.0
9     8672.0
19    8670.0
Name: 8672.0, dtype: float64

Панды: drop_duplicates не работает правильно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды: drop_duplicates не работает правильно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов