Создайте RDD или Dataframe, используя pyspark для списка csv-файлов, где должна быть удалена 1-я строка каждого файла - PullRequest
0 голосов
/ 17 января 2019

Мой CSV-файл выглядит так:

"ABC_REPORT (Jan 16, 2019)"

Cid,Aid,Time zone,View,Active,Impressions,Measurable

abc,abc_tea,(GMT-05:00) Eastern Time,0,0.00%,0,0.00%

Я использую pyspark для удаления первой строки и чтения схемы из второй строки. У меня есть список CSV-файлов, которые я должен прочитать все имеют одинаковую схему и первую строку. Но не смог этого сделать.

Есть предложения?

Вывод я хочу:

Cid,Aid,Time zone,View,Active,Impressions,Measurable

abc,abc_tea,(GMT-05:00) Eastern Time,0,0.00%,0,0.00%

Я пытался использовать pyspark, но не смог создать RDD для списка файлов. Кроме того, я пытался фильтровать и вычитать методы, чтобы удалить первую строку из Rdd для одного файла, но все еще не смог.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...