У меня есть кадр данных со следующими столбцами - movieid, mov ie name, genre 1, genre 2, .... genre n.
В данных много фильмов кадры, с которыми связано несколько жанров. Например: История игрушек является частью анимации, семьи, детей и т. Д. c.
Я хочу определить все фильмы, которые относятся к более чем одному жанру.
Хорошо, вам не нужно ничего группировать. Я собираюсь предложить здесь кое-что немного хакерское, у кого-то может быть более красивая версия этого кода. Просто возьмите часть своего фрейма данных со столбцами, которые являются жанрами (я предполагаю, что в них нет имен столбцов с «жанром», которые не относятся к тому типу, который вы сказали.)
tempdf = df[[column for column in df if 'genre' in column]]
Для следующего бита я предполагаю, что столбцы жанров имеют код 0/1. Если это не так, вы можете довольно легко преобразовать их в это.
number_of_genres = df.sum(axis=1)
Теперь вам нужны только те фильмы, для которых это> 1:
df[number_of_genres > 1]