Искра логистической регрессии работает очень медленно - PullRequest
1 голос
/ 29 мая 2019

Я управляю Spark Logistic регрессом с Лассо, и это занимает 20-30 минут, чтобы бежать.Это из-за решателя?

Пробежал без лассо и заняло 2-4 минуты.Также общая логистическая регрессия заняла 2-4 минуты.

В данных содержится около пары миллионов строк и 20-30 столбцов.

Может быть, это плохой оптимизатор, который используется?Я предполагаю, что та же самая проблема в R / Scikit была быстрее.

RegParam=.0115
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=1000,fitIntercept=True)
lr.setStandardization(True)
lr.setRegParam(RegParam)
lr.setTol(tolerance)
lr.setElasticNetParam(1.0)
lrModel = lr.fit(df)
...