Я хочу иметь возможность перечислять уникальные строки в серии / столбце, а затем выбирать или «пропускать» строки на основе их значения индекса.
df = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/imdb_1000.csv')
#list unique values in genre series
df['genre'].unique().tolist()
['Crime',
'Action',
'Drama',
'Western',
'Adventure',
'Biography',
'Comedy',
'Animation',
'Mystery',
'Horror',
'Film-Noir',
'Sci-Fi',
'History',
'Thriller',
'Family',
'Fantasy']
Я понимаю, что могу выбрать конкретную c строк, использующих df[df.genre.isin(['Crime', 'Fantasy'])]
, но могу ли я сгенерировать индексный список всех уникальных значений в жанре, а затем использовать эти индексные значения, чтобы выбрать, какие из них сохранить для моего фрейма данных?
Контекст - иногда на работе мне приходится фильтровать из нескольких значений, которые легко ошибаются, например, имена сотрудников