Как оценить Hive (Azure Интерактивный запрос HDI 4.0) - PullRequest
0 голосов
/ 16 апреля 2020

Есть ли у кого-нибудь работающий и протестированный по состоянию на 2020 TP C -DS или TP C -H тест для Azure Interactive Query HDI 4.0 кластеров, который использует Had oop 3 .x +?

Я использовал https://github.com/hortonworks/hive-testbench, но столкнулся с ошибкой при попытке создать данные для TP C -H и TP C -DS.

Интерактивный запрос HDI 4.0 (имел oop 3.1.1). Что это может быть за ошибка? Шаг, который терпит неудачу, - это когда он запускает файл jar.

code where it fails

Generating data at scale factor 100.
Exception in thread "main" java.lang.IllegalAccessError: 
class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDelegator
...
ls: `/tmp/tpch-generate/100/lineitem': No such file or directory
Data generation failed, exiting.

Тогда второй вопрос заключается в том, что для TP C -DS всякий раз, когда я Запустите «большие» масштабные коэффициенты, сбой происходит на этапе оптимизации. И это обычно терпит неудачу в таблице 17 или 18. Есть идеи, что это может быть?

INFO  : Loading data to table tpcds_bin_partitioned_orc_100.store_sales partition (ss_sold_date_sk=null) from wasb://asdasd-2020-04-16t02-32-03-034z@asdasd.blob.core.windows.net/hive/warehouse/managed/tpcds_bin_partitioned_orc_100.db/store_sales/.hive-staging_hive_2020-04-16_06-47-19_242_1371829803314907581-47/-ext-10000
ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception updating metastore for acid table tpcds_bin_partitioned_orc_100.store_sales with partitions [store_sales
...
INFO  : Completed executing command(queryId=hive_20200416064719_4aa11ffb-31c0-411f-a7ca-954c9741891d); Time taken: 1280.036 seconds
Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception updating metastore for acid table tpcds_bin_partitioned_orc_100.store_sales with partitions

1 Ответ

0 голосов
/ 28 апреля 2020

Ошибка MoveTask из-за внутреннего ограничения базы данных sql. В Azure SQL База данных входящие параметры могут иметь только 2100 параметров, а тесты генерируют слишком много разделов.

hive.direct.sql.max.elements.values.clause=200
hive.direct.sql.max.elements.in.clause=200
...