files = sc.wholeTextFiles("/path/to/data*")
//files is of length N
x = files.map(lambda x: x[1])
//x is of length N with disregarding path name
y = x.flatMap(lambda p: p.split('\n'))
y
- это набор всех строк, я бы хотел, чтобы это разделение на N
частей, а не объединение в одну, сохраняло, какие строки находятся в каком исходном файле. Так что если в настоящее время мое значение y
содержит 10000 элементов, а у меня 10 файлов. Я хочу, чтобы в y
было 10 элементов, и каждый элемент - это коллекция, содержащая строки для этого конкретного файла.
Как мне это сделать?