Искровая ошибка при запуске наборов данных TPCDS. Не удалось найти dsdgen - PullRequest
1 голос
/ 28 марта 2020

Я пытаюсь создать наборы эталонных данных TPCDS, следуя этому веб-сайту.

https://xuechendi.github.io/2019/07/12/Prepare-TPCDS-For-Spark

при запуске:

scala> [troberts@master1 spark-sql-perf]$ spark-shell --master yarn --deploy-mode cliers /home/troberts/spark-sql-perf/target/scala-2.11/spark-sql-perf_2.11-0.5.1-SNAPSHOT.jar -i TPCDPreparation.scala

Я получаю эту ошибку? Мне интересно, если это что-то делать с разрешениями, поскольку файл dsdgen определенно существует в этом месте на каждом из рабочих узлов / home / troberts / spark- sql -perf / tpcds-kit / tools

Причина: org. apache .spark.SparkException: задание прервано из-за сбоя этапа: прерывание TaskSet 0.0, поскольку задание 0 (раздел 0) нигде не может выполняться из-за черного списка узлов и исполнителей. Самый последний сбой: потерянная задача 0.0 на этапе 0.0 (TID 0, worker1.mycluster.com, исполнитель 1): java .lang.RuntimeException: не удалось найти dsdgen в / home / troberts / spark- sql -perf / tpcds-kit / tools / dsdgen или // home / troberts / spark- sql -perf / tpcds-kit / tools / dsdgen. Запустите install в scala .sys.package $ .error (package. scala: 27)

Любые идеи приветствуются.

Приветствия

1 Ответ

2 голосов
/ 29 марта 2020
Could not find dsdgen at /home/troberts/spark-sql-perf/tpcds-kit/tools/dsdgen or //home/troberts/spark-sql-perf/tpcds-kit/tools/dsdgen

Сначала необходимо установить TPCDS.

spark- sql -perf docs из инструмента, который вы использовали:

Before running any query, a dataset needs to be setup by creating a Benchmark object. 
Generating the TPCDS data requires dsdgen built and available on the machines. 
We have a fork of dsdgen that you will need. 

The fork includes changes to generate TPCDS data to stdout, so that this library can pipe them directly to Spark, without intermediate files. 
Therefore, this library will not work with the vanilla TPCDS kit.

TPCDS kit needs to be installed on all cluster executor nodes under the same path!

Пожалуйста, настройте инструментарий TPCD C из блоков данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...