У меня большой набор данных (10 ГБ), и я должен выполнить One Hot Encoding (OHE). При подготовке данных OHE - это шея bottle, это занимает слишком много времени.
Я использую эту библиотеку, чтобы сделать это: кодировщики категории
from category_encoders.one_hot import OneHotEncoder
OneHotEncoder().fit_transform(df)
Для небольшой выборки данных фрейм уже занимает слишком много времени.
Как я могу ускорить процесс? Может распараллелить это? Еще один способ сделать это?