Как использовать строковые функции в случайном лесу для больших данных в реальном времени - PullRequest
0 голосов
/ 25 марта 2019

У меня есть огромный набор данных, который должен выполнить двоичную классификацию. Некоторые функции в наборе данных являются строковыми, поэтому их нельзя использовать без преобразования в числовые значения. Я попытался fit_transform и применил RandomForest после и работал правильно. Тем не менее, мы внедряем систему реального времени, что время является большой проблемой! fit_transform занимает много времени. Любая идея о том, как я могу использовать строковые значения или другие библиотеки для преобразования строки в цифру как можно быстрее? У меня также есть доступ к Spark, поэтому, если у MLlib есть что-то, что может помочь, пожалуйста, дайте мне знать!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...