Как прочитать CSV со второй строкой в ​​качестве заголовка в pyspark dataframe - PullRequest
2 голосов
/ 21 февраля 2020

Я пытаюсь загрузить CSV и сделать вторую строку в качестве заголовка. Как этого добиться. Пожалуйста, дайте мне знать. Спасибо.

file_location = "/mnt/test/raw/data.csv"
file_type = "csv"    

infer_schema = "true"
delimiter = ","

data = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", "false") \
  .option("sep", delimiter) \
  .load(file_location) \

1 Ответ

1 голос
/ 21 февраля 2020

Сначала прочитайте данные как rdd, а затем передайте этот rdd в df.read.csv ()

data=sc.TextFile('/mnt/test/raw/data.csv')
firstRow=data.first()
data=data.filter(lambda row:row != firstRow)
df = spark.read.csv(data,header=True)

. Для ссылки на функции dataframe используйте ссылку ниже. Это послужит библией для всех операции с кадрами данных, которые вам нужны, для указанной c версии spark замените «последний» в URL на любую версию, которую вы хотите:

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...