Как определить столбцы разделов в таблице кустов с помощью Spark SQL - PullRequest
2 голосов
/ 24 сентября 2019

Я пытаюсь идентифицировать имена столбцов разделов в таблице кустов с помощью Spark. Я могу сделать это, используя show partitions с последующим анализом набора результатов для извлечения столбцов разделов. Однако недостатком является, если некоторые из сказокесли в них нет раздела, то раздел show не работает. Существует более естественный способ определения имен столбцов разделов в таблице кустов.Любая помощь будет высоко ценится

v_query="show partitions {}".format(table_name)
a=self.spark.sql(v_query)
val=a.rdd.map(list).first()
val1=''.join(val)
partition_list=[l.split('=')[0] for l in val1.split('/')]

1 Ответ

1 голос
/ 24 сентября 2019

Над кодом не получится, если таблица не разбита на разделы.Появится сообщение об ошибке, например "pyspark.sql.utils.AnalysisException: u'SHOW PARTITIONS is not allowed on a table that is not partitioned"

. Вы можете использовать операцию map для команды desc, чтобы получить информацию о столбце раздела.

>>> spark.sql("""desc db.newpartitiontable""").show(truncate=False)
+-----------------------+---------+-------+
|col_name               |data_type|comment|
+-----------------------+---------+-------+
|city                   |string   |null   |
|state                  |string   |null   |
|country                |string   |null   |
|tran_date              |string   |null   |
|# Partition Information|         |       |
|# col_name             |data_type|comment|
|tran_date              |string   |null   |
+-----------------------+---------+-------+

partition_exists=spark.sql("""desc db.newpartitiontable""").rdd.map(lambda x:x[0]).filter(lambda x: x.startswith("# col_name")).collect()

if len(partition_exists)>0:
    print("table is partitioned")
    partition_col=spark.sql("""show partitions test_dev_db.newpartitiontable""").rdd.map(lambda x:x[0]).map(lambda x : [l.split('=')[0] for l in x.split('/')]).first()
    print("Partition column is:",partition_col)
else:
    print("table is not partitioned")
...