Ошибка при запуске логистической регрессии в pyspark mlib - PullRequest
1 голос
/ 11 декабря 2019

У меня есть фрейм данных (df_ml_nullable), например:

+-----+--------------------+
|label|            features|
+-----+--------------------+
|  0.0|[127.0,132.0,123....|
|  0.0|[67.0,67.0,67.0,6...|
|  0.0|[-29.0,-30.0,-28....|
|  4.0|[31.0,31.0,31.0,3...|
|  0.0|[39.0,40.0,42.0,4...|
+-----+--------------------+

Ниже приведена схема этого фрейма данных: df_ml_nullable.printSchema ()

root
 |-- label: double (nullable = false)
 |-- features: vector (nullable = false)

Я пытаюсьзапустите логистическую регрессию следующим образом:

    from pyspark.ml.linalg import Vectors
    from pyspark.ml.classification import LogisticRegression
    lr = LogisticRegression(maxIter=10, regParam=0.01)
    (train_d,test_d)=df_ml_nullable.randomSplit([0.7, 0.3])
    model1 = lr.fit(train_d)

Когда я пытаюсь запустить это, я получаю эту ошибку: IllegalArgumentException: u’quirement fail: объекты столбца должны иметь тип struct, значения: array> нобыл фактически struct, values: array>. '

Кто-нибудь сталкивался с этой проблемой?

...