Question

Я пытаюсь прочитать одну таблицу улья в pyspark, но также получаю заголовок, который мне не нужен.

File.csv

Id,Name
1,A
2,B
3,C
4,D

Таблица Hive

Я создаю таблицу кустов с tblproperties("skip.header.line.count"="1"), и в Hive я получаю данные правильно, поэтому с Hive нет проблем.

У меня проблема, пока я читаю эту таблицу в писпарке.

Shu · Answer 1 · 25 марта 2020

Существует Spark-11374 jira, сообщенный для этой проблемы и закрытый как won't fix.

Возможные способы сделать это:

1.You can directly read the HDFS file:

spark.read.option("header","true").option("delimiter",",").csv("<hdfs_path>").show()

2.using hive query:

spark.sql("select * from <table_name> where <col_name1> != 'id'").show()

Как читать таблицу Hive в Spark без заголовка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.