Как узнать, какую работу выполняет каждое задание / исполнитель Spark - PullRequest
1 голос
/ 09 марта 2019

Когда мое приложение работает в кластере Spark, я знаю следующее

1) план выполнения

2) группа доступности базы данных с узлами в виде RDD или операций

3) все задания / этапы / исполнители / задания

Тем не менее, я не могу найти, как по заданному идентификатору задачи узнать, какие виды работ (СДР или операции) выполняет задача.

Из задачи я могу узнать ее идентификатор исполнителя и на какой машине он работает. На машине, если мы grep Java и ID, мы можем получить

/bin/bash -c /usr/lib/jvm/jdk1.8.0_192/bin/java -server -Xmx12288m '-XX:MaxMetaspaceSize=256M' '-Djava.library.path=/opt/hadoop/lib/native' '-Djava.util.logging.config.file=/opt/spark2/conf/parquet.logging.properties' -Djava.io.tmpdir=/tmp/hadoop-root/nmlocaldir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/tmp '-Dspark.driver.port=35617' '-Dspark.network.timeout=3000s' -Dspark.yarn.app.container.log.dir=/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012 -XX:OnOutOfMemoryError='kill %p' org.apache.spark.executor.CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@10.0.72.160:35617 --executor-id 11 --hostname abc --cores 3 --app-id application_1549756402460_92964 --user-class-path file:/tmp/hadoop-root/nm-local-dir/usercache/appcache/application_1549756402460_92964/container_1549756402460_92964_01_000012/__app__.jar 1>/mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stdout 2> /mnt/yarn-logs/userlogs/application_1549756402460_92964/container_1549756402460_92964_01_000012/stderr

Но это не говорит мне, что он делает ... Разве Спарк раскрывает информацию?

...