Question

У меня есть org.apache.spark.util.CollectionAccumulator[(Double, Double)] И я добавил в него строки во время потоковой передачи.

Теперь я хочу преобразовать его в DataFrame для дальнейшей обработки.Но я не уверен, как этого добиться.

Редактировать

Добавление фрагмента кода для заполнения аккумулятора:

val strmquery = dataFramedummy.writeStream.foreach(new ForeachWriter[Row]() {

  override def open(partitionId: Long, version: Long): Boolean = true

  override def process(row: Row): Unit = {
    println(s">> Processing ${row}")
    accumulator.add((row.getAs("Field1").asInstanceOf[Double], row.getAs("Filed2").asInstanceOf[Double]))
  }

  override def close(errorOrNull: Throwable): Unit = {
    // do nothing
  }
}).outputMode("append").start()

Kaushal · Answer 1 · 13 июня 2018

Преобразуйте свой аккумулятор в список и затем создайте из него набор данных.

val accumulator :org.apache.spark.util.CollectionAccumulator[(Double, Double)] = ???
spark.createDataset(accumulator.value)

Как преобразовать CollectionAccumulator [(Double, Double)] в SparkdataFrame?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать CollectionAccumulator [(Double, Double)] в SparkdataFrame?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов