Question

У меня есть датафрейм, который вы можете построить с помощью этого:

dflist=[['123',['abc','qw3','123']],
        ['ab12',['3e4r5','12we3','asd23','q2w3']]]
df=pd.DataFrame(dflist,columns=['check','checklist'])

И выглядит так:

  check                    checklist
0   123              [abc, qw3, 123]
1  ab12  [3e4r5, 12we3, asd23, q2w3]

Я хочу проверить, есть ли пункт в столбце «check» в списке в столбце «checklist». Поэтому я хочу, чтобы итоговый кадр данных выглядел следующим образом:

  check                    checklist checkisin
0   123              [abc, qw3, 123]      True
1  ab12  [3e4r5, 12we3, asd23, q2w3]     False

Я пробовал несколько вещей, включая использование .isin в различных формах, включая apply / lambda. и напрямую.

Это:

df['checkisin']=df.check.isin(df.checklist)

производит:

  check                    checklist  checkisin
0   123              [abc, qw3, 123]      False
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

, который имеет два ложных.

Попробуем это: df ['checkisin'] = df.apply (лямбда-x: x.check.isin (x.checklist)) выдает эту ошибку:

AttributeError: ("'Series' object has no attribute 'check'", 'occurred at index check')

Попытка этого:

df['checkisin']=df.apply(lambda x:x['check'] in x.checklist)

выдает эту ошибку:

KeyError: ('check', 'occurred at index check')

Я уверен, что мне здесь не хватает чего-то простого. Я знаю, что мог бы зациклить это, но ищу мудрое решение Pandas Dataframe, так как у меня очень большой DF, и он пытается «наиболее» эффективно обрабатывать.

Спасибо!

cs95 · Answer 1 · 30 июня 2019

У вас есть столбец списков, конечно, у pandas нет функций, которые изначально поддерживают операции с данными, структурированные так плохо.Если вам нужна максимальная производительность, я бы порекомендовал составить список:

df['checkisin'] = [c in l for c, l in zip(df['check'], df['checklist'])]
df
  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

Возможно, вы захотите внедрить обработку ошибок, за исключением попыток, если вы беспокоитесь о NaN и несоответствиях типов:

def check_isin(check, checklist):
    try:
        return check in checklist
    except TypeError:
        return np.NaN

df['checkisin'] = [
    check_isin(c, l) for c, l in zip(df['check'], df['checklist'])
]

Фактические данные свидетельствуют о том, что понимание списков является наиболее желательным вариантом для операций, которые нельзя векторизовать.

PS, рассмотрите возможность преобразования столбца списков в столбец множеств, если вы планируете сделать членствомного тестирует.

Вот пример того, как эта операция может быть векторизована.

from itertools import chain

cl = df.pop('checklist')
df = (pd.DataFrame(df.reset_index().values.repeat(cl.str.len(), axis=0), 
                   columns=['group', *df.columns])
        .assign(checklist=list(chain.from_iterable(cl))))

df

   group check checklist
0      0   123       abc
1      0   123       qw3
2      0   123       123
3      1  ab12     3e4r5
4      1  ab12     12we3
5      1  ab12     asd23
6      1  ab12      q2w3
7      1  ab12       123

(df['check'] == df['checklist']).groupby(df.group).any()

group
0     True
1    False
dtype: bool

piRSquared · Answer 2 · 30 июня 2019

`map`

df.assign(checkisin=[*map(lambda s, x: s in x, *map(df.get, df))])

  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

Если ваш фрейм данных содержит больше столбцов, вы можете быть более явными

cols = ['check', 'checklist']
df.assign(checkisin=[*map(lambda s, x: s in x, *map(df.get, cols))])

WeNYoBen · Answer 3 · 30 июня 2019

Я буду использовать isin с Series, isin с Series будет совпадать с index первым, что отличается от list

pd.DataFrame(df.checklist.tolist(),index=df.index).isin(df.check).any(1)
Out[496]: 
0     True
1    False
dtype: bool

Или

pd.DataFrame(df.checklist.tolist(),index=df.index).eq(df.check,0).any(1)

Rene · Answer 4 · 30 июня 2019

Вы можете попробовать:

df['checkisin'] = [v in df.checklist[i] for i, v in enumerate(df.check)]

или:

df['checkisin'] = [i in j for i, j in zip(df.check, df.checklist)]

или:

df['checkisin'] = list(map(lambda i, j: i in j, df.check, df.checklist))

или (когда вы предпочитаете df.assign):

df.assign(checkisin=[*map(lambda i, j: i in j, df.check, df.checklist)])

Результат:

  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

Pandas - проверяет, является ли столбец строк в столбце списков мудрым

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

`map`

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pandas - проверяет, является ли столбец строк в столбце списков мудрым

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

map

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

`map`