Как заставить RDD MAP выполнять итерацию по каждой строке, а не итерацию по двум строкам в данный момент времени?
book = []
def customer_order_agg(row):
book.append(row['order_number'])
return book
sample2 = df.rdd.map(customer_order_agg)
print(sample2.take(5))
Я получаю следующие результаты:
[[721], [721, 722, 723], [721, 722, 723], [721, 722, 723, 724, 725], [721, 722, 723, 724, 725]]
Что я ожидаю, это
[[721], [721, 722], [721, 722, 723], [721, 722, 723, 724], [721, 722, 723, 724, 725]]
Мое содержание df
2019-02-27 01:21:49.839392|1|1|136.14|20000.0|0.0|20000.0|0|721|retretre|
2019-02-27 01:21:49.839392|1|1|135.0|3000.0|0.0|3000.0|0|722|tetr|
2019-02-27 01:21:49.839392|1|1|135.0|70000.0|0.0|70000.0|0|723|retete|
2019-02-27 01:21:49.839392|1|1|135.0|1000.0|0.0|1000.0|0|724|etrertert|
2019-02-27 01:21:49.839392|1|1|135.0|200000.0|0.0|200000.0|0|725|00tertL|