Вы можете положиться на основные функции струн панд - не нужно ничего особенного. Ищете, содержит ли столбец текста определенную текстовую строку? Используйте Series.str.contains
:
df = pd.DataFrame({'x':['abc','defgICD','hijicd','klm']})
df['icd'] = df['x'].str.contains('icd', case=False)
возвращается:
x icd
0 abc False
1 defgICD True
2 hijicd True
3 klm False
См. Страницу справки для str.contains
, где приведена документация по опциям, которые вы можете использовать. В частности, вы можете указать, соответствуете ли вы на основе регистра (в этом случае шаблон, который вам подходит, должен быть точным) или соответствует icd
, ICD
, iCd
и т. Д.
Мнение : По мере того, как вы приобретаете больше опыта в программировании и даже в Excel, я бы рекомендовал придерживаться булевых значений True / False вместо кодирования «Да» / «Нет», поскольку это просто более просто , легче запомнить и т. д. Если вам нужно что-то представить менеджеру / клиенту / и т. д., вы можете заменить True / False на что-то другое в качестве последнего шага.