Question

Я застрял в группировании нескольких столбцов, используя различные условия:

Мой фрейм данных выглядит так:

code    product brand   lvl1    lvl2    lvl3     lvl4   lvl5        price
8968653 ABC             Milk    Mother  Toddler         Porridge    69
8968653 ABC     AB              Baby                    Bayi        95

Код и Product_name являются общими полями. Все остальные столбцы должны быть сгруппированы согласно следующим условиям:

Обе ячейки пусты: показать NaN
Одна ячейка пуста: показать другое значение
Обе ячейки не пусты: объедините ячейки по трубе
Столбец цены должен показывать среднее значение

Ожидаемый результат:

code    product brand   lvl1 lvl2        lvl3     lvl4  lvl5         price
8968653 ABC     AB      Milk Mother|Baby Toddler  NaN   Porridge|Bayi    82

Erfan · Answer 1 · 26 июня 2019

Мы можем сделать это в несколько шагов:

Сначала мы получаем список столбцов типа string и numeric
Во-вторых, мы используем groupby.agg или groupby.mean в зависимости от того, есть ли у нас столбцы string или numeric:
Мы очищаем наш фрейм данных, где есть ненужные |.

# Step 1 get string and numeric columns
str_cols = df.iloc[:, 2:-1].columns
num_cols = df.iloc[:, -1:].columns

# Step 2 groupby on string and numeric columns
d1 = df.groupby(['code','product'])[str_cols].agg('|'.join)
d2 = df.groupby(['code', 'product'])[num_cols].mean()

# Join the dataframe back as 1
df = d1.join(d2).reset_index()

Выход 1:

      code product brand   lvl1         lvl2      lvl3 lvl4           lvl5  price
0  8968653     ABC   |AB  Milk|  Mother|Baby  Toddler|    |  Porridge|Bayi     82

Теперь мы очищаем наш фрейм данных, удаляя каналы |.

df = df.replace('(^\||\b\|\b|\|$)', '', regex=True)

Конечный выход

      code product brand  lvl1         lvl2     lvl3 lvl4           lvl5  price
0  8968653     ABC    AB  Milk  Mother|Baby  Toddler       Porridge|Bayi     82

harvpan · Answer 2 · 26 июня 2019

Вам нужно определить функцию:

def f(x):
    if x.isna().all():
        return np.nan
    x = x.dropna()
    if x.dtype == 'int64':
        return x.mean()
    x = x.drop_duplicates()
    if len(x)>1:
        return '|'.join(x)
    return x


df.replace('', np.nan).groupby(['code'], as_index=False).agg(f)

Выход:

      code product brand  lvl1         lvl2     lvl3  lvl4           lvl5  price
0  8968653     ABC    AB  Milk  Mother|Baby  Toddler   NaN  Porridge|Bayi     82

Quang Hoang · Answer 3 · 26 июня 2019

Аналогично Эрфану, но выстраиваете агг, поэтому группировать нужно всего один раз:

# dictate which column does what
str_cols = [col for col in df.columns if col not in ['code','product', 'price']]
agg = {col:'|'.join for col in str_cols}
agg['price'] = 'mean'

# aggregation
new_df = df.groupby(['code','product'],as_index=False).agg(agg)

# strip by columns
# replace would be a better choice, but that'll be copied from Efran's
new_df[str_cols] = new_df[str_cols].apply(lambda x: x.str.strip('\|'))

Вывод:

    code    product brand   lvl1    lvl2        lvl3    lvl4    lvl5            price
0   8968653 ABC     AB      Milk    Mother|Baby Toddler         Porridge|Bayi   82.0

Панды - Как сделать 'сгруппировать' по нескольким столбцам в зависимости от условий?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды - Как сделать 'сгруппировать' по нескольким столбцам в зависимости от условий?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов