Dask Dataframe Label Encoder (1 D или?) - PullRequest
0 голосов
/ 04 марта 2020

Существует два набора данных (с одинаковым количеством столбцов), для которых я написал шаг LabelEncoding с использованием Dask Dataframe. Scikit Learn и pandas завершают код за 2 часа, и я хочу сократить время выполнения, используя Dask

Существующий раздел кодирования обучения Pandas / Scikit:

categoryorical_cols = ['CBN', ' SAT_CD ',' SEG_OD ']. *

Я пытаюсь переписать приведенный выше код с помощью Dask. Я прочитал два разных набора данных (train и test) с использованием dask.distributed.read_csv и сцепил с использованием dask.distributed.multi.concat. Я прочитал, что dask не может обрабатывать более 1D во время labelencoding, и мне нужно go с серией pandas. Итак, я попытался с помощью приведенного ниже кода.

data = dd.from_ pandas (pd.Series (df [categoryorical_cols], dtype = 'category'), npartitions = 200).

Это приводит к ValueError: Истинное значение DataFrame неоднозначно. Используйте a.any () или a.all ().

Во время обработки вышеупомянутого исключения произошло другое исключение:

Есть ли другая альтернатива?

...