находить уникальные значения построчно по значениям через запятую - PullRequest
0 голосов
/ 07 ноября 2018

Для данных, как показано ниже:

df = pd.DataFrame({'col':['abc,def,ghi,jkl,abc','abc,def,ghi,def,ghi']})

Как получить уникальные значения столбца col по строкам в новом столбце, как показано ниже:

          col             unique_col
0  abc,def,ghi,jkl,abc    abc,def,ghi,jkl
1  abc,def,ghi,def,ghi    abc,def,ghi

Я пытался использовать iteritems, но получил ошибку атрибута:

for i, item in df.col.iteritems():
    print item.unique()

1 Ответ

0 голосов
/ 07 ноября 2018
import pandas as pd
df = pd.DataFrame({'col':['abc,def,ghi,jkl,abc','abc,def,ghi,def,ghi']})


def unique_col(col):
    return ','.join(set(col.split(',')))

df['unique_col'] = df.col.apply(unique_col)

результат:

    col     unique_col
0   abc,def,ghi,jkl,abc     ghi,jkl,abc,def
1   abc,def,ghi,def,ghi     ghi,abc,def
...