Группировка по разным жанрам фильмов в Pandas - PullRequest
0 голосов
/ 17 июня 2020

У меня есть фрейм данных со следующими столбцами - movieid, mov ie name, genre 1, genre 2, .... genre n.

Во фрейме данных много фильмов, которые имеют несколько жанров, связанных с ними. Например: История игрушек является частью анимации, семьи, детей и т. Д. c.

Я хочу определить все фильмы, которые относятся к более чем одному жанру.

Как мне закодировать это с помощью Pandas / DataFrame? Кстати, я полный новичок, так что потерпите меня.

Спасибо, D

1 Ответ

0 голосов
/ 18 июня 2020

У меня есть кадр данных со следующими столбцами - movieid, mov ie name, genre 1, genre 2, .... genre n.

В данных много фильмов кадры, с которыми связано несколько жанров. Например: История игрушек является частью анимации, семьи, детей и т. Д. c.

Я хочу определить все фильмы, которые относятся к более чем одному жанру.

Хорошо, вам не нужно ничего группировать. Я собираюсь предложить здесь кое-что немного хакерское, у кого-то может быть более красивая версия этого кода. Просто возьмите часть своего фрейма данных со столбцами, которые являются жанрами (я предполагаю, что в них нет имен столбцов с «жанром», которые не относятся к тому типу, который вы сказали.)

tempdf = df[[column for column in df if 'genre' in column]]

Для следующего бита я предполагаю, что столбцы жанров имеют код 0/1. Если это не так, вы можете довольно легко преобразовать их в это.

number_of_genres = df.sum(axis=1)

Теперь вам нужны только те фильмы, для которых это> 1:

df[number_of_genres > 1]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...