Кодировать столбцы на основе категориальных значений - PullRequest
0 голосов
/ 17 июня 2020

Я «учусь» из базы данных Kaggle IMDB mov ie. Часто существует столбец «жанр» с несколькими категориальными значениями, например: боевик, драма, научная фантастика. Там, где значения в столбце жанра пересекаются с именем столбца, есть удобный способ установить его равным 1. т.е. если «жанр» содержит Action, Adventure, Sci-Fi, установите значения этих столбцов из От NaN до 1.

Я не встречал кодирования с одним горячим типом, когда поле a имеет несколько категориальных значений. Я начал с вложенного блока «For», но застрял в том, как эффективно сравнивать категориальные значения с именами столбцов и устанавливать значения. Любые идеи? TIA

ДАННЫЕ ОБРАЗЦА --жанр ------------------------------ Драма - Приключения --- Научная фантастика --- Боевик 2 Экшн, Приключения, Научная фантастика ----- NaN ------- NaN ------------ NaN ------ NaN 3 Драма ----------------------------- NaN ------- NaN ---------- --NaN ------ NaN 4 Драма ----------------------------- NaN ------- NaN ---------- --NaN ------ NaN

Я хочу, чтобы это выглядело так:

- жанр ------------------------------ Драма - Приключения --- Научная фантастика - - Действие 2 Экшн, Приключения, Научная фантастика ----- NaN ------- 1 --------------- 1 ---------- 1 3 Драма ----------------------------- 1 ------------ NaN ----- ------ NaN ------ NaN 4 Драма ----------------------------- 1 ------------ NaN ----- ------ NaN ------ NaN

...