Как отсортировать набор данных по ха sh столбца в Scala? - PullRequest
0 голосов
/ 31 января 2020

У меня есть org.apache.spark.sql.Dataset, и я пытаюсь отсортировать его по ха sh столбца. Пробовал как

ds.sort($"source".hashCode)

но это явно неправильно.

1 Ответ

0 голосов
/ 31 января 2020

Вы можете использовать встроенную функцию hash функций package

import org.apache.spark.sql.functions.hash

ds.sort(hash($"source"))

Быстрый пример

INPUT

+--------+-----+
| source |other|
+--------+-----+
|       a|    3|
|       c|    2|
|       b|    2|
+--------+-----+

Вывод:

+------+-----+
|source|other|
+------+-----+
|     c|    2|
|     a|    3|
|     b|    2|
+------+-----+

Ха sh результат в столбце только для демонстрационных целей:

+------+-----+-----------+
|source|other|       hash|
+------+-----+-----------+
|     c|    2|-2124386278|
|     a|    3| 1485273170|
|     b|    2| 1905031361|
+------+-----+-----------+
...