Как выбрать подмножество полей из столбца массива в Spark Java? - PullRequest
0 голосов
/ 24 ноября 2018

Этот вопрос такой же, как и здесь.У этого есть принятый ответ для скалы.Но мне нужно реализовать то же самое в Java.

Как выбрать подмножество полей из столбца массива в Spark?

import org.apache.spark.sql.Row

case class Record(id: String, size: Int)

val dropUseless = udf((xs: Seq[Row]) =>  xs.map{
  case Row(id: String, size: Int, _) => Record(id, size)
})

df.select(dropUseless($"subClasss"))

Я пытался реализовать вышеупомянутое в Java, но не смог получить егоза работой.Ценю любую помощь.Спасибо

this.spark.udf().register("dropUseless",
            (UDF1<Seq<Row>, Seq<Row>>) rows -> {
                Seq<Row> seq = JavaConversions
                    .asScalaIterator(
                        JavaConversions.seqAsJavaList(rows)
                            .stream()
                            .map((Row t) -> RowFactory.create(new Object[] {t.getAs("id"), t.getAs("size")})
                            ).iterator())
                    .toSeq();
                return seq;
            }, DataTypes.createStructType(Arrays.asList(
                DataTypes.createStructField("id", DataTypes.StringType, false),
                DataTypes.createStructField("size", DataTypes.IntegerType, true))
                )
            );

1 Ответ

0 голосов
/ 24 ноября 2018

Если мы предполагаем, что у вас есть Dataframe (df), вы можете использовать собственный SQL для извлечения нового Dataframe (ndf), который может содержать результаты, которые вы хотите.

Попробуйте это:

df.registerTempTable("df");

Dataframe ndf = sqlContext.sql("SELECT ..... FROM df WHERE ...");
...