Я пытаюсь извлечь компанию, описание работы, отзывы и местоположение для должностей, которые являются «специалистом по данным» и «старшим специалистом по данным» отдельно.Я начал с попытки получить вывод для исследователя данных, но не смог.В наборе данных есть дубликаты обоих заданий, и я пытаюсь указать все случаи, когда упоминаются «ученый данных» или «старший ученый данных».
dataset['position']=dataset.position.str.lower()
dataset
position company description reviews location
0 data scientist lead ALS TDI This position is... 30.0 Atlanta
1 NaN xyz qualified candid.. 4000.0 Texas
2 data scientist xcv python desireable.. 232.0 toronto
3 data scientist intel CS Degree needed.. 322145.0 Newyork
4 senior data scientist amazon python, excel.... 23222.0 montreal
.
.
5000 data scientist/machine yahoo sql needed plus... Nan Atlanta
Я использую следующее для созданияфрейм данных, который явно содержит записи для позиций, в которых указано только «ученый данных», а не вариации, найденные в индексах 0 и 5000.
filtered = dataset[dataset['position'].str.contains('data scientist', na=False)]
, но он не работает, поскольку предоставляет все записи, в которых содержатся строкисодержит «ученый данных», включая «старшего ученого данных» и «ученый данных / машина»