Мой CSV-файл выглядит так:
"ABC_REPORT (Jan 16, 2019)"
Cid,Aid,Time zone,View,Active,Impressions,Measurable
abc,abc_tea,(GMT-05:00) Eastern Time,0,0.00%,0,0.00%
Я использую pyspark для удаления первой строки и чтения схемы из второй строки.
У меня есть список CSV-файлов, которые я должен прочитать все имеют одинаковую схему и первую строку.
Но не смог этого сделать.
Есть предложения?
Вывод я хочу:
Cid,Aid,Time zone,View,Active,Impressions,Measurable
abc,abc_tea,(GMT-05:00) Eastern Time,0,0.00%,0,0.00%
Я пытался использовать pyspark, но не смог создать RDD для списка файлов.
Кроме того, я пытался фильтровать и вычитать методы, чтобы удалить первую строку из Rdd для одного файла, но все еще не смог.