Question

Давайте предположим, что у меня есть следующий фрейм данных:

df_raw = pd.DataFrame({"id": [102, 102, 103, 103, 103], "val1": [9,2,4,7,6], "val2": [np.nan, 3, np.nan, 4, 5], "val3": [4, np.nan, np.nan, 5, 1], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2002, 3, 3), pd.Timestamp(2003, 4, 4), pd.Timestamp(2003, 8, 9), pd.Timestamp(2005, 2, 3)]})

Я хочу иметь доступ к строкам, где находится первое вхождение каждого id.Таким образом, эти строки были бы:

df_first = pd.DataFrame({"id": [102, 103], "val1": [9, 4], "val2": [np.nan, np.nan], "val3": [4, np.nan], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2003, 4, 4)]})

По сути, в конце я хотел бы достичь заполнения 10000 * s, которые появляются в первом появлении каждого id.Таким образом, последний кадр данных может быть следующим:

df_processed = pd.DataFrame({"id": [102, 102, 103, 103, 103], "val1": [9,2,4,7,6], "val2": [-1, 3, -1, 4, 5], "val3": [4, np.nan, -1, 5, 1], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2002, 3, 3), pd.Timestamp(2003, 4, 4), pd.Timestamp(2003, 8, 9), pd.Timestamp(2005, 2, 3)]})

Важное замечание: строки уже сгруппированы по идентификатору и дате и отсортированы по возрастанию.Таким образом, они выглядят точно так же, как в приведенном примере.

jpp · Answer 1 · 15 декабря 2018

Вы можете использовать pd.Series.duplicated с логическим индексированием строки:

mask = ~df_raw['id'].duplicated()
val_cols = ['val2', 'val3']

df_raw.loc[mask, val_cols] = df_raw.loc[mask, val_cols].fillna(-1)

print(df_raw)

    id  val1  val2  val3       date
0  102     9  -1.0   4.0 2002-01-01
1  102     2   3.0   NaN 2002-03-03
2  103     4  -1.0  -1.0 2003-04-04
3  103     7   4.0   5.0 2003-08-09
4  103     6   5.0   1.0 2005-02-03

WeNYoBen · Answer 2 · 15 декабря 2018

IIUC с использованием drop_duplicates, затем concat

df1=df_raw.drop_duplicates('id').fillna(-1)
target=pd.concat([df1,df_raw.loc[~df_raw.index.isin(df1.index)]]).sort_index()
target
        date   id  val1  val2  val3
0 2002-01-01  102     9  -1.0   4.0
1 2002-03-03  102     2   3.0   NaN
2 2003-04-04  103     4  -1.0  -1.0
3 2003-08-09  103     7   4.0   5.0
4 2005-02-03  103     6   5.0   1.0

Панды: Найти первые вхождения элементов, которые появляются в определенном столбце

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды: Найти первые вхождения элементов, которые появляются в определенном столбце

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов