Как читать таблицу Hive в Spark без заголовка - PullRequest
0 голосов
/ 25 марта 2020

Я пытаюсь прочитать одну таблицу улья в pyspark, но также получаю заголовок, который мне не нужен.

File.csv

Id,Name
1,A
2,B
3,C
4,D

Таблица Hive

Я создаю таблицу кустов с tblproperties("skip.header.line.count"="1"), и в Hive я получаю данные правильно, поэтому с Hive нет проблем.

У меня проблема, пока я читаю эту таблицу в писпарке.

1 Ответ

0 голосов
/ 25 марта 2020

Существует Spark-11374 jira, сообщенный для этой проблемы и закрытый как won't fix.

Возможные способы сделать это:

1.You can directly read the HDFS file:

spark.read.option("header","true").option("delimiter",",").csv("<hdfs_path>").show()

2.using hive query:

spark.sql("select * from <table_name> where <col_name1> != 'id'").show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...