Я получаю ошибку несоответствия типов в Spark SQL 2.x - «Ожидаемый столбец, но найденный массив столбцов» - PullRequest
0 голосов
/ 12 февраля 2020

Я пытаюсь отфильтровать 2 столбца из списка столбцов данных и передать его в качестве аргумента функции ha sh. Использование Spark Scala 2.11.8 Spark SQL - 2.3.1

Я пытаюсь сгенерировать значение ha sh для обязательных столбцов (customerId, address).

Может быть достигается путем упоминания имен столбцов в функции

 //existingdataDF.withColumn("hashkey",hash(col("customerId"),col("address") )).show

, но что, если у нас есть 100 столбцов, и мне нужно включить 98 столбцов, кроме 2 столбцов.

Поэтому мне нужно отфильтровать ненужные столбцы и сгенерировать значение ha sh для всех столбцов. (Необходимо значение ha sh для реализации SCD 2 на данных)

case class Customer(customerId: Int, address: String, current: Boolean, effectiveDate: Date, endDate: Date)
 import spark.implicits._
    val existingdataDF = Seq(
      Customer(1, "old address for 1", false, null, "2018-02-01"),
      Customer(1, "current address for 1", true, "2018-02-01", null),
      Customer(2, "current address for 2", true, "2018-02-01", null),
      Customer(3, "current address for 3", true, "2018-02-01", null)
    ).toDF()
          val  existingDFhashcolumns =existingdataDF.filter(x=> x!=col("effectiveDate") && x!=col("endDate"))
val hashcolumns =existingDFhashcolumns.columns.map(col(_))
existingdataDF.withColumn("hashkey",hash(hashcolumns)).show

1 Ответ

1 голос
/ 12 февраля 2020

Сначала получите список необходимых hascolumns, затем примените га sh.

import org.apache.spark.sql.functions._
val hashcolumns =existingdataDF.filter(x=> x!=col("effectiveDate") && x!=col("endDate")).columns.map(col(_))
existingdataDF.withColumn("hashkey",hash(hashcolumns:_*)).show
...