df = pd.DataFrame([[1,'a'],[2,'a,b'],[3,'b']], columns=['col1', 'col2'])
Я могу написать, использовать pd.Series.str.get_dummies(sep=',')
, который обрабатывает несколько значений в столбцах, однако это неидеально, поскольку он не содержит подогнанный список значений для применения подгонки к обучающим данным и применения к данным тестирования.
>>> df['col2'].str.get_dummies(sep=',')
a b
0 1 0
1 1 1
2 0 1
Есть ли в scikit.learn функция (или другой пакет), которая может обрабатывать столбцы с множественным выбором в