Соответствие ключевых слов (строк) с Pandas кадром данных - PullRequest
4 голосов
/ 23 апреля 2020

У меня есть Dataframe, который я хочу сопоставить с некоторыми ключевыми словами (я хочу определить строки, содержащие эти ключевые слова). Мне удалось получить работу таким образом. Но мне интересно, есть ли лучший способ сделать это, зная, что у меня может быть до 10 или 20 разных ключевых слов.

df1 = df[df['column1'].str.contains("keyword1") | df['column1'].str.contains('keyword2')]

(я новичок, пожалуйста, сделайте это как можно проще)

1 Ответ

5 голосов
/ 23 апреля 2020

Для или logi c вы можете создать один шаблон, объединив слова с |. Сохраните ваши 10-20 слов в списке, тогда '|'.join(that_list).

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1': ['foo', 'bar', 'baz', 'foobar', 'boo']})
words = ['foo', 'bar']

df['foo_OR_bar'] = df['col1'].str.contains('|'.join(words))

#     col1  foo_OR_bar
#0     foo        True
#1     bar        True
#2     baz       False
#3  foobar        True
#4     boo       False

#To slice by that Boolean Series
df1 = df.loc[df['col1'].str.contains('|'.join(words))]

Если ваши присоединяющиеся логи c равны и , тогда мы можем использовать np.logical_and.reduce с составление списков для сохранения компактности.

df['foo_AND_bar'] = np.logical_and.reduce([df.col1.str.contains(w) for w in words])

#     col1  foo_OR_bar  foo_AND_bar
#0     foo        True        False
#1     bar        True        False
#2     baz       False        False
#3  foobar        True         True
#4     boo       False        False
...