Как отфильтровать набор данных по названию работы? - PullRequest
0 голосов
/ 25 ноября 2018

Я пытаюсь извлечь компанию, описание работы, отзывы и местоположение для должностей, которые являются «специалистом по данным» и «старшим специалистом по данным» отдельно.Я начал с попытки получить вывод для исследователя данных, но не смог.В наборе данных есть дубликаты обоих заданий, и я пытаюсь указать все случаи, когда упоминаются «ученый данных» или «старший ученый данных».

dataset['position']=dataset.position.str.lower()
dataset
        position            company     description      reviews     location
0   data scientist lead     ALS TDI   This position is...  30.0    Atlanta
1   NaN                      xyz        qualified candid.. 4000.0   Texas
2   data scientist           xcv       python desireable..  232.0    toronto
3   data scientist           intel     CS Degree needed..  322145.0   Newyork
4   senior data scientist   amazon     python, excel....   23222.0     montreal
.
.
5000  data scientist/machine  yahoo   sql needed plus...  Nan            Atlanta

Я использую следующее для созданияфрейм данных, который явно содержит записи для позиций, в которых указано только «ученый данных», а не вариации, найденные в индексах 0 и 5000.

filtered = dataset[dataset['position'].str.contains('data scientist', na=False)]

, но он не работает, поскольку предоставляет все записи, в которых содержатся строкисодержит «ученый данных», включая «старшего ученого данных» и «ученый данных / машина»

1 Ответ

0 голосов
/ 26 ноября 2018

pd.Series.str.contains используется для поиска значений, которые содержат заданную строку.

ps.Series.eq, или эквивалентно оператору равенства==, используется для поиска значений, которые равны данной строке.

pd.DataFrame.query предлагает способ запросить ваш фрейм данных через строку.

Так что вы можете использовать один из:

filtered = dataset[dataset['position'].eq('data scientist')]
filtered = dataset[dataset['position'] == 'data scientist']
filtered = dataset.query('position == "data scientist"')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...