Я работаю над набором данных фильма, который содержит жанр в качестве функции.Примеры в наборе данных могут принадлежать нескольким жанрам одновременно.Итак, они содержат список жанровых меток.
Данные выглядят так:
movieId genres
0 1 [Adventure, Animation, Children, Comedy, Fantasy]
1 2 [Adventure, Children, Fantasy]
2 3 [Comedy, Romance]
3 4 [Comedy, Drama, Romance]
4 5 [Comedy]
Я хочу векторизовать эту функцию.Я пробовал LabelEncoder и OneHotEncoder , но они не могут обрабатывать эти списки напрямую.
Я мог бы векторизовать это вручную, но у меня есть другие подобные функции, которыесодержит слишком много категорий.Для тех, кто предпочел бы какой-либо способ напрямую использовать класс FeatureHasher .
Есть ли способ заставить эти классы кодировщика работать с такой функцией?Или есть лучший способ представить такую функцию, которая облегчит кодирование?Я с удовольствием приветствую любые предложения.