У меня есть простой набор данных, и я пытаюсь упорядочить элементы на основе столбца «имя». Я использовал orderby и sort в scala, но это выдает странный вывод.
scala> val baseData = data.select($"Account.Number".as("AccountNumber"),
$"Account.FirstName".as("FirstName"),
$"Account.LastName".as("LastName"))
baseData: org.apache.spark.sql.DataFrame =
[AccountNumber: string, FirstName: string ... 1 more field]
scala> baseData.show(false)
+-------------+---------+--------+
|AccountNumber|FirstName|LastName|
+-------------+---------+--------+
|123-ABC-789 |Jay |Smith |
|456-DEF-456 |Sally |Fuller |
|333-XYZ-999 |Brad |Turner |
|987-CBA-321 |Justin |Pihony |
|123-ABC-789 |Jay |Smith |
|456-DEF-456 |Sally |Fuller |
|123-ABC-789 |Jay |Smith |
|456-DEF-456 |Sally |Fuller |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|987-CBA-321 |Justin |Pihony |
|123-ABC-789 |Jay |Smith |
|456-DEF-456 |Sally |Fuller |
|333-XYZ-999 |Brad |Turner |
|456-DEF-456 |Sally |Fuller |
|987-CBA-321 |Justin |Pihony |
|456-DEF-456 |Sally |Fuller |
|456-DEF-456 |Sally |Fuller |
|123-ABC-789 |Jay |Smith |
+-------------+---------+--------+
only showing top 20 rows
scala> baseData.sort($"FirstName").show(false)
+-------------+---------+--------+
|AccountNumber|FirstName|LastName|
+-------------+---------+--------+
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|333-XYZ-999 |Brad |Turner |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
|123-ABC-789 |Jay |Smith |
+-------------+---------+--------+
only showing top 20 rows
Я получаю несколько повторяющихся строк. Я пробовал с сортировкой и упорядочением, но оба результата приводят к повторяющимся строкам.