Создание нового столбца с помощью VectorAssembler из файла CSV в Spark - PullRequest
0 голосов
/ 24 октября 2018

Я пытаюсь сгенерировать столбец features из набора данных, считанного из файла CSV.Содержимое CSV выглядит следующим образом:

+-----+---+---+
|label|  x|  y|
+-----+---+---+
|    0|  1|  1|

Мне нужно преобразовать значения этого набора данных в целые числа, чтобы VectorAssembler работал.Я делаю это так:

    Dataset<Row> dataset = spark.read()
            .format("csv")
            .option("header", "true")
            .load("data.csv");

    dataset = dataset.selectExpr("label", "cast(x as int) x", "cast(y as int) y");

    VectorAssembler assembler = new VectorAssembler()
            .setInputCols(new String[]{"x", "y"})
            .setOutputCol("features");

    dataset = assembler.transform(dataset);

Это правильный способ сделать это?Это эффективно?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...