Я новичок в этом пространстве, у меня есть несколько разделенных файлов CSV, имеющих дубликаты записей. Я хочу прочитать файл CSV в коде Spark Scala и также удалить дубликаты во время чтения.
Я пробовал dropDuplicate()
и read.format("csv")
с опцией загрузки.
var df1 = thesparksession.read.format("csv").option("delimiter","|").option("header",true).load("path/../../*csv)
.withcolumn(col1)
df1.dropDuplicates().show()
если допустим, csv1 имеет значения
emp1 1000 nuu -1903.33
emp2 1003 yuu 1874.44
и csv2 имеет
emp1 1000 nuu -1903.33
emp4 9848 hee 1874.33
Мне нужна только одна запись с emp1, которая будет обрабатываться дальше.
ожидаемый результат:
emp1 1000 nuu -1903.33
emp2 1003 yuu 1874.44
emp4 9848 hee 1874.33