Question

У меня есть код панды, где я делаю следующее для горячего кодирования:

from sklearn.preprocessing import MultiLabelBinarizer
...
mlb = MultiLabelBinarizer() 
df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index)

, где мой столбец CatData содержит список категорий.

Для работы с большими наборами данных,Я пытаюсь использовать Dask.Существует прямая замена для большинства функций панд.Однако «горячее» кодирование сложно, поскольку категории заранее неизвестны.Я думаю о том, чтобы сканировать строку за строкой этого столбца по всему набору данных, помещая каждую категорию, найденную в списке, в словарь.Затем используйте эти словари для создания имен столбцов для быстрого кодирования.Есть ли способ сделать это более надежно в сумерках?

Dask одно горячее кодирование, не зная категорий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Dask одно горячее кодирование, не зная категорий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы