У меня есть огромный набор данных, который должен выполнить двоичную классификацию. Некоторые функции в наборе данных являются строковыми, поэтому их нельзя использовать без преобразования в числовые значения. Я попытался fit_transform и применил RandomForest после и работал правильно.
Тем не менее, мы внедряем систему реального времени, что время является большой проблемой! fit_transform занимает много времени. Любая идея о том, как я могу использовать строковые значения или другие библиотеки для преобразования строки в цифру как можно быстрее?
У меня также есть доступ к Spark, поэтому, если у MLlib есть что-то, что может помочь, пожалуйста, дайте мне знать!