паркетные поля, показывающие NULL при чтении через HIVE, НО, показывающие значения при чтении через spark - PullRequest
0 голосов
/ 25 февраля 2019

Я записываю свой фрейм данных искровой потоковой передачи в виде файла паркета в моей HDFS.Я создал таблицу кустов в верхней части этой папки HDFS.моя искровая структурированная потоковая запись:НО тот же файл HDFS, который я прочитал через оболочку spark, и он получает сгенерированные значения без NULL.введите команду spark для чтения файла паркета:

val pp = spark.read.parquet("hdfs://ddd/apps/hive/warehouse/ddddd.db/frg_drag/dfo_data_dt=20190225/")
   pp.show

Мой оператор создания таблицы в HIVE выглядит следующим образом:

        CREATE TABLE `ddddd.frg_drag`(
     `unit` string,
     `pol` string,
     `lop` string,
     `gok` string,
     `dfo_call_group` string,
     `dfo_dfr` double,
     `dfo_dfrs` double,
     `dfo_dfrf` double,
     `dfo_dfra` double,
     `dfo_dfrgg` double,
     `dfo_dfrqq` double,
     `dfo_w_percent` double,
     `dfo_afv_percent` double,
     `dfo_endfd` double,
     `dfo_time` timestamp,
     `dfo_data_hour` int,
     `dfo_data_minute` int)
   PARTITIONED BY (
     `dfo_data_dt` bigint)
   ROW FORMAT SERDE
     'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
   STORED AS INPUTFORMAT
     'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
   OUTPUTFORMAT
     'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
   LOCATION
     'hdfs://ddd/apps/hive/warehouse/ddddd.db/frg_drag'
   TBLPROPERTIES (
      'transient_lastDdlTime'='1551108381')

может помочь мне решить эту проблему.Я новичок в мире искры

...