Как визуализировать группирование переменных или выполнить интерактивную группировку в мире PySpark? - PullRequest
0 голосов
/ 30 августа 2018

Мне было интересно, есть ли способ, как выполнить группировку интерактивных переменных (аналогично той, которая включена в программном обеспечении SAS Miner) в мире PySpark / Python. Группировка переменных является неотъемлемой частью разработки модели, поэтому я полагаю, что уже должен быть какой-то инструмент / библиотека, которая могла бы это поддерживать. У кого-нибудь есть опыт с этим? Thx

1 Ответ

0 голосов
/ 26 июня 2019

В настоящее время такой библиотеки для Python не существует.

Интерактивная группировка переменных - это многоэтапный процесс (предлагается как узел с именем IGN в SAS Enterprise Miner), который является частью решения SAS EM Credit Scoring, а не базовым SAS. Хотя в мире Python есть инструменты для некоторых шагов IGN, таких как биннинг, WoE, Gini, деревья решений и т. Д. Scikit-learn является хорошей отправной точкой для этого.

Существует множество проектов, связанных с Scikit-learn , в том числе для конкретных доменов. Проект для кредитного скоринга является потенциальным кандидатом в этом списке.

...