Действия по сокращению временной задержки из-за сбоя выделения ГХ в лазурных блоках данных - PullRequest
1 голос
/ 06 марта 2019

Я выполняю задание на печать «Hello World» в записной книжке лазурных блоков данных python на кластере искр.Каждый раз, когда запускается задание, его выполнение занимает более 12 секунд, что, как ожидается, займет менее 12 секунд, поскольку это самый простой код на Python, который только можно себе представить.Когда я проверяю журналы, он показывает ошибку распределения GC следующим образом:

2019-02-15T15:47:27.551+0000: [GC (Allocation Failure) [PSYoungGen: 312512K->57563K(390144K)] 498744K->243803K(1409024K), 0.0153696 secs] [Times: user=0.05 sys=0.00, real=0.02 secs] 
2019-02-15T15:47:28.703+0000: [GC (Metadata GC Threshold) [PSYoungGen: 206668K->65267K(385024K)] 392909K->251515K(1403904K), 0.0187692 secs] [Times: user=0.06 sys=0.00, real=0.02 secs] 
2019-02-15T15:47:28.722+0000: [Full GC (Metadata GC Threshold) [PSYoungGen: 65267K->0K(385024K)] [ParOldGen: 186248K->244119K(1018880K)] 251515K->244119K(1403904K), [Metaspace: 110436K->110307K(1144832K)], 0.3198827 secs] [Times: user=0.64 sys=0.04, real=0.32 secs] 

Хотел бы узнать, задержка задания> 12 секунд из-за ошибки выделения GC?Если да, как я могу уменьшить его?Если нет, то что может быть другой причиной задержки и как ее исправить?

1 Ответ

2 голосов
/ 06 марта 2019

Затраты на запуск Spark Job в кластере слишком высоки.Если обрабатывать петабайты, то накладные расходы малы, но здесь это заметно.GC здесь не проблема.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...