В чем разница между двумя временами планировщика DAG в журнале запуска Spark? - PullRequest
0 голосов
/ 24 января 2019

Я запускаю искровую работу, и она записывает, что происходит с процессом.В конце он дает два типа времени, которые относятся ко времени завершения.В чем разница между этими двумя типами.

Добавлены ли эти различия при чтении и записи или накладные расходы агрегации или что-то еще?

DAGScheduler:54 - ResultStage 1 (runJob at SparkHadoopWriter.scala:78) finished in 41.988 s
DAGScheduler:54 - Job 0 finished: runJob at SparkHadoopWriter.scala:78, took 67.610115 s

ДЛИННЫЙ ВЫХОД

.
.
.
2019-01-15 21:25:32 INFO  TaskSetManager:54 - Finished task 2974.0 in stage 1.0 (TID 5956) in 898 ms on 172.17.6.100 (executor 8) (2982/2982)
2019-01-15 21:25:32 INFO  TaskSchedulerImpl:54 - Removed TaskSet 1.0, whose tasks have all completed, from pool 
2019-01-15 21:25:32 INFO  DAGScheduler:54 - ResultStage 1 (runJob at SparkHadoopWriter.scala:78) finished in 41.988 s
2019-01-15 21:25:32 INFO  DAGScheduler:54 - Job 0 finished: runJob at SparkHadoopWriter.scala:78, took 67.610115 s
2019-01-15 21:25:45 INFO  SparkHadoopWriter:54 - Job job_20190115212425_0001 committed.
2019-01-15 21:25:45 INFO  AbstractConnector:318 - Stopped Spark@4d4d8fcf{HTTP/1.1,[http/1.1]}{0.0.0.0:4040}
2019-01-15 21:25:45 INFO  SparkUI:54 - Stopped Spark web UI at http://node-100.iris-cluster.uni.lux:4040
2019-01-15 21:25:45 INFO  StandaloneSchedulerBackend:54 - Shutting down all executors
2019-01-15 21:25:45 INFO  CoarseGrainedSchedulerBackend$DriverEndpoint:54 - Asking each executor to shut down
2019-01-15 21:25:45 INFO  MapOutputTrackerMasterEndpoint:54 - MapOutputTrackerMasterEndpoint stopped!
2019-01-15 21:25:45 INFO  MemoryStore:54 - MemoryStore cleared
2019-01-15 21:25:45 INFO  BlockManager:54 - BlockManager stopped
2019-01-15 21:25:45 INFO  BlockManagerMaster:54 - BlockManagerMaster stopped
2019-01-15 21:25:45 INFO  OutputCommitCoordinator$OutputCommitCoordinatorEndpoint:54 - OutputCommitCoordinator stopped!
2019-01-15 21:25:45 INFO  SparkContext:54 - Successfully stopped SparkContext
2019-01-15 21:25:45 INFO  ShutdownHookManager:54 - Shutdown hook called

Чтоправильный подход для оценки такого выходного журнала?

1 Ответ

0 голосов
/ 28 января 2019

Рассмотрим, поддерживает ли планировщик DAG хэш-карту для сбора отсортированного списка из его «n» разделов. Затем, при получении списка из последнего раздела, этап размещения результатов будет завершен. Однако список номеров в этих последних разделах должен быть вставлен в хэш-карту. Это заняло бы: log (total-no-of-elements / no.of section) раз - пусть это будет log (nip), где nip - количество элементов в разделе. Кроме того, чтение всего списка отсортированных чисел (для записи в файл) заняло бы другой журнал N раз. Следовательно, в сумме нам нужно «2 log N» дополнительного времени.

Следовательно, если вы увеличите количество разделов (то есть количество рабочих узлов) с 2 до 2 ^ 4, то конечная задержка изменится, скажем, с 250 единиц до приблизительно 31 единицы.

Надеюсь, это поможет!

...