Question

Я использую клей в качестве мета-магазина улья. У меня есть почасовая работа, которая записывает файлы каждый час в зарегистрированный раздел.

Определение таблицы:

CREATE EXTERNAL TABLE table_name (
column_1 STRING,
column_2 STRING
)
PARTITIONED BY (process_date DATE)
STORED AS PARQUET
LOCATION "s3://bucket/table_name/";

spark.sql("ALTER TABLE table_name ADD IF NOT EXISTS partition(process_date='2019-11-13') 
LOCATION 's3://bucket/table_name/process_date=2019-11-13'")

Расположение s3 для этих разделов и файлов компонентов:

s3://bucket/table_name/process_date=2019-11-13/hour=00/part-01.parquet
s3://bucket/table_name/process_date=2019-11-13/hour=00/part-02.parquet
s3://bucket/table_name/process_date=2019-11-13/hour=01/part-01.parquet
s3://bucket/table_name/process_date=2019-11-13/hour=01/part-02.parquet

Я так понимаю, если я добавлю hour=00 и hour=01 в раздел раздела, это будет работать в spark sql. Но таким образом данные могут запрашиваться через Hive, а не через spark sql.

Я также пытался добавить эти конфессы в свою искровую оболочку, но не повезло.

"spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive=true"
"spark.hadoop.hive.mapred.supports.subdirectories=true"

Eman · Answer 1 · 24 апреля 2020

Протестировал сценарий, создав таблицу, похожую на вашу, и приведенный ниже конфиг работал для меня:

Первый набор: sqlContext.setConf("spark.sql.hive.convertMetastoreParquet", "false")

Тогда это : sqlContext.setConf("mapred.input.dir.recursive","true"); sqlContext.setConf("spark.sql.parquet.binaryAsString", "true")

Вы можете прочитать больше здесь: [1] https://home.apache.org/~pwendell/spark-nightly/spark-branch-2.2-docs/latest/sql-programming-guide.html#hive -metastore-parquet-table-преобразование

Eman · Answer 2 · 24 апреля 2020

Я думаю, что вы сделали, что вы включили каталог Glue на сайте улья. xml, но не на сайте spark-hive. xml.

В вашей классификации также должен быть раздел ниже:

[ { "Classification": "spark-hive-site", "Properties": { "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }, ]

ссылка: [1] https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html

Spark Hive SQL возвращает пустой датафрейм

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark Hive SQL возвращает пустой датафрейм

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы