У меня есть таблица, которая выглядит следующим образом
Timestamp, Name, Value
1577862435, Tom, 0.25
1577915618, Tom, 0.50
1577839734, John, 0.34
1577839734, John, 0.34
1577839734, John, 0.34
1577839734, Eric, 0.34
Чтобы подсчитать записи для каждого пользователя, я делаю
query = """ SELECT ID,
COUNT(*) AS `num`
FROM
myTable
GROUP BY Name
ORDER BY num DESC
"""
count = spark.sql(query)
count.show()
Name num
John 3
Tom 2
Eric 1
Я бы запросил, что ID арендной платы имеют num>=2
. Мой финальный стол должен быть:
Timestamp, Name, Value
1577862435, Tom, 0.25
1577915618, Tom, 0.50
1577839734, John, 0.34
1577839734, John, 0.34
1577839734, John, 0.34