Как пропустить ненужные заголовки из CSV-файла с помощью спарк-фрейма данных (python / pyspark) - PullRequest
0 голосов
/ 08 апреля 2019

Как пропустить первую строку из csv и рассматривать вторую строку как заголовок в фрейме данных pyspark:

prod,daily,impress
id,name,country
01,manish,USA
02,jhon,UK
03,willson,Africa

Как пропустить первую строку (ежедневное количество показов) и рассматривать (имя страны) в качестве заголовка с использованием искрового фрейма данных.

1 Ответ

0 голосов
/ 08 апреля 2019

Я не мог придумать, как получить вторую строку в качестве заголовка, кроме как с помощью жесткого кодирования.Однако можно пропустить первые две (или любое количество строк) из кадра данных CSV.

>>> df = spark.read.csv("sample_csv",sep=',').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['id','name','country'])
#x[1] > 1 actually skips first two lines 0 & 1
>>> df.show()
+---+-------+-------+
| id|   name|country|
+---+-------+-------+
| 01| manish|    USA|
| 02|   jhon|     UK|
| 03|willson| Africa|
+---+-------+-------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...