У меня есть фрейм данных с 8000 строк, где столбец job_name
содержит строки с коротким «заголовком задания» (см. Ниже).
Я создал разные списки, содержащие отдельные вакансии, которые я хочу сгруппировать.
job_hilfskraft = ['bretreuungskraft', 'pflegehilfskraft', 'pflegehelfer', 'krankenpflegehelfer','altenpflegerhelfer', 'pflegeassistent','pflegeassistenz','pflegehilfskräfte', 'pflegeassistenten', 'altenpflegehilfskraft', 'pflegeassistentin','altenpflegehelfer']
job_fachkraft = ['pflegefachkraft', 'altenpfleger','pflegefachkräfte','altenpflegerin', 'pflegekraft', 'krankenpfleger', 'krankenpfleger', 'altenpflegerin', 'altenpflegefachkraft', 'pflegemitarbeiter']
job_leitung = ['pflegedienstleitung', 'pflegedienstleiter', 'wohnbereichsleiter', 'einrichtungsleiter']
job_sonstige = ['küchenhilfskraft', 'reinigungskraft', 'küchenleiter', 'servicekraft', 'spülkraft', 'empfangskraft']
Пример строки, включающей должность.
job_name
0 Küchenhilfskraft in Teilzeit gesucht!
1 Examinierter Krankenpfleger in ambulanter Station
Желаемый вывод:
job_name job_label
0 Küchenhilfskraft in Teilzeit gesucht! sonstige
1 Examinierter Krankenpfleger in ambulanter Station fachkraft
Я использую
df['job_label'] = ""
df['job_label'][df.job_name.str.contains('|'.join(job_hilfskraft))] = 'hilfskraft'
df['job_label'][df.job_name.str.contains('|'.join(job_leitung))] = 'leitung'
df['job_label'][df.job_name.str.contains('|'.join(job_sonstige))] = 'sonstige'
df['job_label'][df.job_name.str.contains('|'.join(job_fachkraft))] = 'fachkraft'
Но он не назначает метки соответствующим строкам или только нескольким ... (<5% строк) </p>
Я также получаю сообщение для каждой строки «содержит»:
SettingWithCopyWarning:
Значение пытается быть установлено для копии среза из DataFrame