Как подготовить данные для применения RandomForest? - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть CSV-файл, который содержит userId, MovieId, Rating. Я хочу преобразовать этот файл в метку, содержащую функции.

как в Как подготовить данные в формате LibSVM из DataFrame?

Мне нужно разделить столбец рейтинга как файл и определить LabeledPoint для метки. Для применения алгоритма случайного леса мне нужен столбец метки в файле, но он не завершается.

val pca = new PCA()
    .setInputCol("features")
    .setOutputCol("pcaFeatures")
    .setK(3)
    .fit(assembled_df)

    val pcaTrainingData = pca.transform(assembled_df).select("id","features","pcaFeatures")
   val labeled = pca.transform(assembled_df).rdd.map(row => LabeledPoint(
   row.getAs[Double]("label"),   
   row.getAs[org.apache.spark.mllib.linalg.Vector]("pcaFeatures")
))

    val numClasses = 10
    val categoricalFeaturesInfo = Map[Int, Int]()
    val numTrees = 10 // Use more in practice.
    val featureSubsetStrategy = "auto" // Let the algorithm choose.
    val impurity = "gini"
    val maxDepth = 20
    val maxBins = 32

    val model = RandomForest.trainClassifier(labeled, numClasses, categoricalFeaturesInfo,
        numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

Как сделать метку столбца?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...