Объедините строки из нескольких строк, используя Pandas groupby, и удалите дубликаты из разделенной запятыми ячейки. - PullRequest
2 голосов
/ 09 марта 2020

У меня есть следующие данные, и я пытаюсь агрегировать по уникальному идентификатору, и мне нужно получить уникальные имена, уникальные продукты, уникальные цены в одной ячейке в соответствующих столбцах.

Unique_id   Name    Product Price
101         ABC Ltd A       100
102         JKL Ltd B       200
101         ABC Ltd B       200
102         JKL US  B       200
103         IHJ Ltd A       100
102         JKL UK  C       300
103         IHJ US  A       100
101         ABC US  A       100

Не удалось получить приведенный ниже код, но его не соответствует моему требованию.

df1 = df.groupby(' Unique_ID'').agg({'Product'  : 'first', ‘Price’  : 'first', 
          'Name’:'first'.join}).reset_index()

Ниже приведен вывод, который я пытаюсь получить, но не могу получить правильный код.

Unique_id   Name               Product   Price
101         ABC Ltd, ABC US    A, B      100
102         JKL Ltd, JKL UK    B, C      200
103         IHJ Ltd, IHJ US    A         100

Спасибо.

1 Ответ

1 голос
/ 09 марта 2020

Небольшое изменение вашего текущего подхода с использованием lambda:

print (df.groupby('Unique_id').agg({'Product': lambda d: ", ".join(set(d)),
                                    'Price' : 'first',
                                    'Name':lambda d: ", ".join(set(d))}).reset_index())

   Unique_id Product  Price                   Name
0        101     A,B    100         ABC Ltd,ABC US
1        102     C,B    200  JKL Ltd,JKL UK,JKL US
2        103       A    100         IHJ US,IHJ Ltd
...