У меня есть CSV-файл, который содержит userId, MovieId, Rating. Я хочу преобразовать этот файл в метку, содержащую функции.
как в Как подготовить данные в формате LibSVM из DataFrame?
Мне нужно разделить столбец рейтинга как файл и определить LabeledPoint для метки. Для применения алгоритма случайного леса мне нужен столбец метки в файле, но он не завершается.
val pca = new PCA()
.setInputCol("features")
.setOutputCol("pcaFeatures")
.setK(3)
.fit(assembled_df)
val pcaTrainingData = pca.transform(assembled_df).select("id","features","pcaFeatures")
val labeled = pca.transform(assembled_df).rdd.map(row => LabeledPoint(
row.getAs[Double]("label"),
row.getAs[org.apache.spark.mllib.linalg.Vector]("pcaFeatures")
))
val numClasses = 10
val categoricalFeaturesInfo = Map[Int, Int]()
val numTrees = 10 // Use more in practice.
val featureSubsetStrategy = "auto" // Let the algorithm choose.
val impurity = "gini"
val maxDepth = 20
val maxBins = 32
val model = RandomForest.trainClassifier(labeled, numClasses, categoricalFeaturesInfo,
numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
Как сделать метку столбца?