Я управляю Spark Logistic регрессом с Лассо, и это занимает 20-30 минут, чтобы бежать.Это из-за решателя?
Пробежал без лассо и заняло 2-4 минуты.Также общая логистическая регрессия заняла 2-4 минуты.
В данных содержится около пары миллионов строк и 20-30 столбцов.
Может быть, это плохой оптимизатор, который используется?Я предполагаю, что та же самая проблема в R / Scikit была быстрее.
RegParam=.0115
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=1000,fitIntercept=True)
lr.setStandardization(True)
lr.setRegParam(RegParam)
lr.setTol(tolerance)
lr.setElasticNetParam(1.0)
lrModel = lr.fit(df)