Я не могу реализовать kmeans
для столбца "score"
моего набора данных, загруженного из mongodb
с spark
.
Вот мой код:
public static void main(String[] args) {
JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
JavaMongoRDD<Document> rdd = MongoSpark.load(jsc);
Dataset<Row> df = rdd.toDF();
Dataset<Row> dataset = df.select("score");
dataset.show();
VectorAssembler assembler = new VectorAssembler()
.setInputCols(new String[]{"score"})
.setOutputCol("features");
Dataset<Row> vectorized_df = assembler.transform(dataset);
// vectorized_df.show();
KMeans kmeans = new KMeans().setK(2).setSeed(1L);
KMeansModel model = kmeans.fit(dataset);
Dataset<Row> predictions = model.transform(dataset);