Я новичок в pyspark и пытаюсь запустить ниже простых кодов.
# create a RDD of LabeledPoint
bcData = MLUtils.loadLibSVMFile(sc, "breast-cancer.txt")
# convert it to DataFrame
bcDataFrame = ss.createDataFrame(bcData)
bcDataFrame.cache()
# split the data
(training_data, testing_data) = bcDataFrame.randomSplit([0.8, 0.2])
# create the model
dt_classifier = DecisionTreeClassifier(impurity="gini", maxDepth=2, labelCol="label", featuresCol="features")
dt_model = dt_classifier.fit(training_data)
При запуске я получаю следующую ошибку в последней строке.
pyspark.sql.utils.IllegalArgumentException: не удалось выполнить условие <тип: tinyint, размер: int, индексы: массив <int>, значения: массив >. '
Я не уверен, почему я получаю эту ошибку, когда фактический тип «функций» столбца точно соответствует ожидаемому.