Question

Я пытаюсь создать SHA256 ha sh каждой строки в кадре данных.

import org.apache.spark.sql.functions.{col, concat, sha2}
val finalResultWithHash = finalResult.withColumn("ROWHASH", sha2(concat(finalResult.columns.map(col):_*), 256))

Когда у меня был только один столбец в кадре данных, казалось, что он работает.

Позже в коде я записываю фрейм данных как CSV, а столбец rowha sh пуст. Мне не удалось найти никакой документации о том, что я делаю неправильно.

Заранее спасибо.

mazaneicha · Answer 1 · 06 мая 2020

Другой способ сделать это - использовать foldLeft():

val df2 = df.withColumn("rowsha",sha2(df.columns.foldLeft(lit(""))((x,y)=>concat(x,col(y))),256))

Складывание объединит все столбцы слева направо перед хешированием:

df.withColumn("rowsha",sha2(df.columns.foldLeft(lit(""))((x,y)=>concat(x,col(y))),256)).explain()
== Physical Plan ==
*(1) Project [c1#10, c2#11, c3#12, c4#13, sha2(cast(concat(, c1#10, c2#11, c3#12, 4#13) as binary), 256) AS rowsha#165]
+- *(1) ...

Однако, если есть столбцов в конкатенации содержат NULL, результат также будет NULL. Чтобы защититься от этого, вы можете использовать что-то вроде

val df2 = df.withColumn("rowsha",sha2(df.columns.foldLeft(lit(""))((x,y)=>concat(x,coalesce(col(y),lit("n/a"))),256))

QuickSilver · Answer 2 · 06 мая 2020

По какой-то причине приведенный ниже код работает для меня для нескольких столбцов

val finalResultWithHash = personDF.withColumn("ROWHASH", sha2(concat(personDF.columns.map(col): _*), 256))

+-----+-----+---+------+--------------------+
|FName|LName|Age|Gender|             ROWHASH|
+-----+-----+---+------+--------------------+
|    A|    B| 29|     M|c4ae6946a295e9d74...|
|    A|    C| 12|      |89a18fdc3ddb3c2fd...|
|    B|    D| 35|     F|ef1c89dfc765c7e1e...|
|    Q|    D| 85|      |cd91aa387a7e6a180...|
|    W|    R| 14|      |e9ff9bb78fd93a13a...|
+-----+-----+---+------+--------------------+

Может быть, это просто ошибка размещения скобок ...

Spark SHA Ha sh Возвращается пустой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark SHA Ha sh Возвращается пустой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы