Dask одно горячее кодирование, не зная категорий - PullRequest
1 голос
/ 20 сентября 2019

У меня есть код панды, где я делаю следующее для горячего кодирования:

from sklearn.preprocessing import MultiLabelBinarizer
...
mlb = MultiLabelBinarizer() 
df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index)

, где мой столбец CatData содержит список категорий.

Для работы с большими наборами данных,Я пытаюсь использовать Dask.Существует прямая замена для большинства функций панд.Однако «горячее» кодирование сложно, поскольку категории заранее неизвестны.Я думаю о том, чтобы сканировать строку за строкой этого столбца по всему набору данных, помещая каждую категорию, найденную в списке, в словарь.Затем используйте эти словари для создания имен столбцов для быстрого кодирования.Есть ли способ сделать это более надежно в сумерках?

1 Ответ

0 голосов
/ 21 сентября 2019

Возможно, вам нужна функция df.categorize().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...