При чтении внешнего стола улья из спарка появляется дополнительный заголовок? - PullRequest
0 голосов
/ 24 апреля 2019

Я создаю внешнюю таблицу в кусте и помещаю csv в расположение HDFS, на которое указывает внешняя таблица. При проверке в Hue вывод таблицы происходит в правильном формате, но когда я пытаюсь прочитать ту же таблицу, используя spark, фрейм данных имеет первую строку, такую ​​же как header, т.е. заголовок дублируется два раза.

версия cdh: Hive 1.1.0-cdh5.13.1

DDL

CREATE EXTERNAL TABLE `dummy`(
  name string,
  age string
)
ROW FORMAT SERDE    
  'org.apache.hadoop.hive.serde2.OpenCSVSerde'  
WITH SERDEPROPERTIES (  
  'quoteChar'='\"',     
  'separatorChar'=',')  
STORED AS INPUTFORMAT   
  'org.apache.hadoop.mapred.TextInputFormat'    
OUTPUTFORMAT    
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
LOCATION    
  '/tmp/dummy'  
TBLPROPERTIES ( 
  'COLUMN_STATS_ACCURATE'='false',  
  'numFiles'='1',   
  'numRows'='-1',   
  'rawDataSize'='-1',   
  'skip.header.line.count'='1')

csv

name,age
abc,10

Вывод в оттенках

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Выход в искре

sparkSession.table ( 'фиктивное'). Показать ()

+----++----+
|name| age | 
+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Ожидаемый выход от Spark

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+
...