Фрейм данных имеет 3 миллиона записей. Я пытаюсь переместить только дубликаты записей в отдельный фрейм данных. Я использую spark 1.6 с scala Данные
IM,A-15ACWSSC,CP
IM,A-15ACWSSC,CP
IM,AK11-130BA,13MM BLK RUBBER CAB
Новый DataFrame
IM,A-15ACWSSC,CP
IM,A-15ACWSSC,CP
Код, который я использовал
var df = Seq(
("IM", "A-15ACWSSC", "ASSY 1.5V2", "CP"),
("IM", "A-15ACWSSC", "ASSY 1.5V2", "CP"),
("IN", "A-15ACWSSC", "ASSY 1.6V2", "CP1"),
("IN", "A-15ACWSSC", "ASSY 1.7V2", "CP2")
).toDF("COL1", "COL2", "COL3", "COL4")
df.show()
// +----+----------+----------+----+
// |COL1| COL2| COL3|COL4|
// +----+----------+----------+----+
// | IM|A-15ACWSSC|ASSY 1.5V2| CP|
// | IM|A-15ACWSSC|ASSY 1.5V2| CP|
// | IN|A-15ACWSSC|ASSY 1.6V2| CP1|
// | IN|A-15ACWSSC|ASSY 1.7V2| CP2|
// +----+----------+----------+----+
df.registerTempTable("CLEANFRAME")
val CleanData = sqlContext.sql(
"""select COL1,COL2,COL3,COL4
from
(SELECT COL1,COL2,COL3,COL4, count(1) over (partition by COL1,COL2,COL3,COL4) as Uniqueid
FROM CLEANFRAME)
where Uniqueid > 1
""").cache()
CleanData.show
Но этоне дает никакого результата. Пожалуйста, помогите, если я что-то упустил.