Группировать и добавлять списки и строки - PullRequest
0 голосов
/ 01 марта 2019

Я пытаюсь сгруппировать значения в моем столбце «значение_1».Но мой последний столбец состоит из списков.Когда я пытаюсь сгруппировать, используя мой столбец «value_1», столбец, составленный из списков, исчезает.

Фрейм данных:

 value_1:        value_2:           value_3:               list: 
 american     california, nyc      walmart, kmart      [supermarket, connivence] 
 canadian         toronto            dunkinDonuts      [coffee]
 american          texas                               [state]
 canadian                             walmart          [supermarket] 
   ...              ...                 ...              ....

Мой ожидаемый результат:

value_1:        value_2:              value_3:             list: 
american   california, nyc, texas   walmart, kmart      [supermarket, connivence, state] 
canadian         toronto         dunkinDonuts, walmart  [coffee, supermarket]

Спасибо!

Ответы [ 2 ]

0 голосов
/ 01 марта 2019

Динамически создавать словарь по всем столбцам без list и value_1, а для list использовать лямбда-функцию с пониманием списка с использованием флейтеннинга:

f1 = lambda x: ', '.join(x.dropna())
#alternative for join only strings
#f1 = lambda x: ', '.join([y for y in x if isinstance(y, str)])
f2 = lambda x: [z for y in x for z in y]
d = dict.fromkeys(df.columns.difference(['value_1','list']), f1)
d['list'] = f2 

df = df.groupby('value_1', as_index=False).agg(d)
print (df)
     value_1                 value_2                value_3  \
0   american  california, nyc, texas         walmart, kmart   
1   canadian                 toronto  dunkinDonuts, walmart   

                               list  
0  [supermarket, connivence, state]  
1             [coffee, supermarket]  

Объяснение :

f1 и f2 являются лямбда-функциями.

Сначала удалите пропущенные значения (если есть) и join строки с разделителем:

f1 = lambda x: ', '.join(x.dropna())

Сначала получите толькостроковые значения (пропустите пропущенные значения, потому что NaN s) и join строки с разделителем:

f1 = lambda x: ', '.join([y for y in x if isinstance(y, str)])

Сначала получите все строковые значения с фильтрацией пустых строк и join строки с разделителем:

f1 = lambda x: ', '.join([y for y in x if y != '']) 

Функция f2 предназначена для сглаживания списков , поскольку после агрегирования получают вложенные списки, такие как [['a','b'], ['c']]

f2 = lambda x: [z for y in x for z in y]
0 голосов
/ 01 марта 2019

Вы можете groupby value_1 и агрегировать столбцы, содержащие строки, с помощью следующей функции:

def str_cat(x):
    return x.str.cat(sep=', ')

И использовать GroupBy.sum для добавлениясписки в столбце list:

df.replace('',None).groupby('value_1').agg({'list':'sum', 'value_2': str_cat,
                                            'value_3': str_cat})

                        list                       value_2  \
value_1                                                              
american  [supermarket, connivence, state]  california, nyc, texas   
canadian             [coffee, sipermarket]          toronto, texas   

                    value_3  
value_1                                 
american  walmart, kmart, dunkinDonuts  
canadian         dunkinDonuts, walmart  
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...