Я пытаюсь сгенерировать столбец features
из набора данных, считанного из файла CSV.Содержимое CSV выглядит следующим образом:
+-----+---+---+
|label| x| y|
+-----+---+---+
| 0| 1| 1|
Мне нужно преобразовать значения этого набора данных в целые числа, чтобы VectorAssembler работал.Я делаю это так:
Dataset<Row> dataset = spark.read()
.format("csv")
.option("header", "true")
.load("data.csv");
dataset = dataset.selectExpr("label", "cast(x as int) x", "cast(y as int) y");
VectorAssembler assembler = new VectorAssembler()
.setInputCols(new String[]{"x", "y"})
.setOutputCol("features");
dataset = assembler.transform(dataset);
Это правильный способ сделать это?Это эффективно?