Я создаю внешнюю таблицу в кусте и помещаю csv в расположение HDFS, на которое указывает внешняя таблица. При проверке в Hue вывод таблицы происходит в правильном формате, но когда я пытаюсь прочитать ту же таблицу, используя spark, фрейм данных имеет первую строку, такую же как header, т.е. заголовок дублируется два раза.
версия cdh: Hive 1.1.0-cdh5.13.1
DDL
CREATE EXTERNAL TABLE `dummy`(
name string,
age string
)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'quoteChar'='\"',
'separatorChar'=',')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'/tmp/dummy'
TBLPROPERTIES (
'COLUMN_STATS_ACCURATE'='false',
'numFiles'='1',
'numRows'='-1',
'rawDataSize'='-1',
'skip.header.line.count'='1')
csv
name,age
abc,10
Вывод в оттенках
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+
Выход в искре
sparkSession.table ( 'фиктивное'). Показать ()
+----++----+
|name| age |
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+
Ожидаемый выход от Spark
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+