Как использовать оценочные метрики в pca + knn? - PullRequest
0 голосов
/ 28 января 2020

У меня есть файл aparquet, содержащий идентификатор, функции. Я хочу оценить метрики для pca + knn.

val rawDataset = MLUtils.loadLibSVMFile(sc, "data/mnist/mnist.bz2")
      .toDF()

    val dataset = MLUtils.convertVectorColumnsToML(rawDataset)
    val Array(train, test) = dataset
      .randomSplit(Array(0.7, 0.3), seed = 1234L)
      .map(_.cache())
    val pca = new PCA()
      .setInputCol("features")
      .setK(50)
      .setOutputCol("pcaFeatures")
    val knn = new KNNClassifier()
      .setTopTreeSize(dataset.count().toInt / 5)
      .setFeaturesCol("pcaFeatures")
      .setPredictionCol("predicted")
      .setK(1)
    val pipeline = new Pipeline()
      .setStages(Array(pca, knn))
      .fit(train)

Любое предложение для расчета отзыва и точности?

...