У меня есть код панды, где я делаю следующее для горячего кодирования:
from sklearn.preprocessing import MultiLabelBinarizer
...
mlb = MultiLabelBinarizer()
df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index)
, где мой столбец CatData содержит список категорий.
Для работы с большими наборами данных,Я пытаюсь использовать Dask.Существует прямая замена для большинства функций панд.Однако «горячее» кодирование сложно, поскольку категории заранее неизвестны.Я думаю о том, чтобы сканировать строку за строкой этого столбца по всему набору данных, помещая каждую категорию, найденную в списке, в словарь.Затем используйте эти словари для создания имен столбцов для быстрого кодирования.Есть ли способ сделать это более надежно в сумерках?