Ниже приведены конфигурации для нашей очереди в кластере пряжи hadoop.
Min Resources: <memory:840 GB, vCores:150, disks:15.0>
Max Resources: <memory:1320 GB, vCores:240, disks:25.0>
Я отправил задание с огромными входными данными (размер - около 1,1 ТБ), которое имеет 4477 mappers
и 10000 reducers
с картой ниже и уменьшите свойства.
mapreduce.map.memory.mb=4096
mapreduce.map.java.opts=-XX:+UseCompressedOops -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:+DisableExplicitGC -Xmx3276m
mapreduce.reduce.memory.mb=4096
mapreduce.reduce.java.opts=-XX:+UseCompressedOops -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:+DisableExplicitGC -Xmx3276m
Это было единственное задание, которое выполнялось в очереди, и никакое другое задание не было отправлено во время выполнения этого задания.
Когда задание началось с фазы сопоставления, я вижу 240 cores, 960 GB memory and 22 disks
в данный моментиспользуется с 1 core for AM and 239 cores for mappers
, работающим параллельно.
Но когда началась фаза редуктора, я вижу только 127 cores, 508 GB memory and 25 disks
с 126 параллельными редукторами, что меньше ресурсов для нашей очереди.
MyЗдесь возникает вопрос, почему только 127 ядер выделены в фазе редуктора и почему не все 240 используются как в фазе картографа.
Что мне нужно знать об использовании диска?