Spark Scala --- ML - Колонка прогнозирования кластеров Kmeans - PullRequest
0 голосов
/ 15 декабря 2018

Я хочу добавить столбец прогноза в свой набор данных после того, как я использовал алгоритм Kmeans в своем наборе данных, и я не имею ни малейшего представления, как этого добиться.Ниже приведен код, который я использовал до сих пор (взят из документации искры)

case class MyCase(sId: Int, tId:Int, label:Double, sAuthors:String, sYear:Int, sJournal:String,
tAuthors:String, tYear:Int,tJournal:String, yearDiff:Int,nCommonAuthors:Int,isSelfCitation:Boolean
              ,isSameJournal:Boolean,cosSimTFIDF:Double,sInDegrees:Int,sNeighbors:Array[Long],tInDegrees:Int ,tNeighbors:Array[Long],inDegreesDiff:Int,commonNeighbors:Int,jaccardCoefficient:Double)

val men = Encoders.product[MyCase]

val ds: Dataset[MyCase] = transformedTrainingSetDF.as(men)

//KMEANS
val numOfClusters = 2
val kmeans = new KMeans().setK(numOfClusters).setSeed(1L)
val model = kmeans.fit(ds)
// Evaluate clustering by computing Within Set Sum of Squared Errors.
val WSSSE = model.computeCost(ds)
println(s"Within Set Sum of Squared Errors = $WSSSE")
// Shows the result.
println("Cluster Centers: ")
model.clusterCenters.foreach(println)

1 Ответ

0 голосов
/ 15 декабря 2018

Использование KMeansModel.transform:

def transform(dataset: Dataset[_]): DataFrame

Преобразует входной набор данных.

model.transform(ds)
...