Удаление первого экземпляра даты в значении фрейма данных Python - PullRequest
0 голосов
/ 11 января 2019

У меня есть датафрейм, который выглядит так:

Publication Date        Date              Value
2018-01-01              2018-01-01        2
2018-01-01              2018-01-02        13
2018-01-01              2018-01-03        14
2018-01-01              2018-01-04        12
2018-01-02              2018-01-02        1.5
2018-01-02              2018-01-03        14
2018-01-02              2018-01-04        15
2018-01-02              2018-01-05        15.5
2018-01-03              2018-01-03        1.8
2018-01-03              2018-01-04        13
2018-01-03              2018-01-05        17
2018-01-03              2018-01-06        15
.
.

Я хочу удалить каждую первую строку данных, где Publication Date изменяется, потому что на каждой итерации очень маленькие значения. Вывод будет выглядеть так:

Publication Date        Date              Value
2018-01-01              2018-01-02        13
2018-01-01              2018-01-03        14
2018-01-01              2018-01-04        12
2018-01-02              2018-01-03        14
2018-01-02              2018-01-04        15
2018-01-02              2018-01-05        15.5
2018-01-03              2018-01-04        13
2018-01-03              2018-01-05        17
2018-01-03              2018-01-06        15
.
.

Данные в основном в этом формате, но включают дополнительные столбцы, которые не показаны (то есть: Date переключается на дату + 1 для каждого Publication Date).

Какой лучший способ сделать это?

Ответы [ 2 ]

0 голосов
/ 11 января 2019

Вы можете использовать логическое индексирование со смещением

df[df['Publication Date'] == df['Publication Date'].shift()]


    Publication Date    Date    Value
1   2018-01-01  2018-01-02  13.0
2   2018-01-01  2018-01-03  14.0
3   2018-01-01  2018-01-04  12.0
5   2018-01-02  2018-01-03  14.0
6   2018-01-02  2018-01-04  15.0
7   2018-01-02  2018-01-05  15.5
9   2018-01-03  2018-01-04  13.0
10  2018-01-03  2018-01-05  17.0
11  2018-01-03  2018-01-06  15.0
0 голосов
/ 11 января 2019

Использование duplicated:

res = df[df.duplicated(subset=['PublicationDate'])]

Или, более обобщенно, используя cumcount или tail с groupby:

res = df[df.groupby('PublicationDate').cumcount() > 0]

res = df.groupby('PublicationDate').apply(lambda x: x.tail(len(x)-1))\
        .reset_index(drop=True)

print(res)

  PublicationDate        Date  Value
0      2018-01-01  2018-01-02   13.0
1      2018-01-01  2018-01-03   14.0
2      2018-01-01  2018-01-04   12.0
3      2018-01-02  2018-01-03   14.0
4      2018-01-02  2018-01-04   15.0
5      2018-01-02  2018-01-05   15.5
6      2018-01-03  2018-01-04   13.0
7      2018-01-03  2018-01-05   17.0
8      2018-01-03  2018-01-06   15.0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...