Как читать csv, который разделен на несколько файлов в pyspark с разрозненным содержимым? - PullRequest
0 голосов
/ 28 мая 2020

У меня есть несколько файлов csv в таком порядке, как a1.csv a2.csv a3.csv

содержимое файлов разделено. Например: a1:

1,8767687,ERS
2,8798089,CTP
3,9879879,POI
4,987

a2

9878,RSP
5,9878987,CTP
6,9887987,CNR
7,8789799,PO

a3

L
8,9879879,LOR
9,8979879,IIO
10,876998,IYK

Теперь я хочу прочитать все эти файлы и создать один файл csv с 10 записи. Если строка разделена, значит, она не содержит символа перевода строки, поэтому, когда я попытался объединить все файлы, используя unix, а затем прочитать их через искру, он работает нормально.

Но я не хочу используйте команду unix.

Если вы можете помочь мне прочитать эти файлы, используя низкоуровневый rdd api, который также работает. Я не могу понять это прямо сейчас.

Любая помощь приветствуется.

...