Предположим, у вас есть столбцы как ['people','timestamp','activity']
SData = Row("people","session_start", "session_end")
def getSessions(dt):
info = dt[1]
data = []
session_start = info[0][0]
session_end = info[0][0]
for x in info[1:]:
if ((x[1] - session_end) > 5*60*1000):
data.append(SData(dt[0], session_start, session_end)
session_start = x[1]
session_end = x[1]
data.append(SData(dt[0],session_start, session_end))
return data
rdd = df.rdd.map(lambda x: (x[0],(x[1],x[2])))
df = rdd.groupByKey().mapValues(lambda x: sorted(x, key=lambda z:z)).flatMap(getSessions).toDF()
В основном сопоставьте его с обратной стороной к df.
Другой подход без rdd - создать udf возвращаемые массивы сессий. Наконец, мы можем использовать Explode для получения строки данных.