Есть ли способ получить фиктивные переменные из категориальных функций в Sparkdataframe в Scala, аналогично pd.get_dummies в пандах? - PullRequest
0 голосов
/ 24 июня 2019

на моей работе В настоящее время я работаю над проектом, в котором я пытаюсь воссоздать процесс анализа данных на Python, а также модель машинного обучения в моей локальной сети и преобразовать ее в код Scala.Одна из проблем, с которыми я сталкиваюсь, - это обработка категориальных переменных.В пандах это легко сделать с помощью команды «получить манекены», однако я не встречал подобной функции в Scala.Учитывая, сколько наборов данных работает, мне нужно обрабатывать категориальные переменные таким образом, чтобы каждый экземпляр представлялся в виде своего собственного столбца.Любая помощь будет принята с благодарностью, спасибо!

Так, например, мой код выглядит так:

1

Предпочтительно мне это нужно; 2

Я вижу несколько тем об One Hot Encoding, но, учитывая мой набор данных и выводы, которые мы пытаемся сделать из этого анализа, мне нужно, чтобы он был в этом формате.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...