Предоставляет ли Google Cloud DataProc веб-страницу с настройками JVM и YARN по умолчанию? - PullRequest
0 голосов
/ 30 января 2019

Как бывший пользователь службы Apache Hadoop в AWS Elastic-Map-Reduce (EMR), я привык извлекать информацию со статической страницы здесь [1] о настройках развертывания по умолчанию для виртуальных машин различных размеров в кластере EMR,Настройки включают в себя максимальный объем памяти JVM, YARN планировщик мин. / Макс. Выделения памяти, Map и Reduce max memory и т. Д.

. Существует ли аналогичная веб-страница с соответствующей информацией для Google Cloud (GCP) DataProc сервис?Я проверил и не смог найти ...

[1] https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-task-config.html#emr-hadoop-task-jvm

1 Ответ

0 голосов
/ 30 января 2019

Информация такого рода доступна через инструмент CLI DataProc.Если вам нужно узнать значения по умолчанию, запустите операцию инициализации, а затем используйте ID операции для выполнения

    gcloud dataproc operations describe ID

Подробная информация о команде доступна здесь: https://cloud.google.com/sdk/gcloud/reference/dataproc/operations/describe

Вы будетевернуть типы настроек, которые вы описали и многое другое.Например:

    capacity-scheduler:yarn.scheduler.capacity.root.default.ordering-policy: fair
    core:fs.gs.block.size: '134217728'
    core:fs.gs.metadata.cache.enable: 'false'
    distcp:mapreduce.map.java.opts: -Xmx768m
    distcp:mapreduce.map.memory.mb: '1024'
    distcp:mapreduce.reduce.java.opts: -Xmx768m
    distcp:mapreduce.reduce.memory.mb: '1024'
    hdfs:dfs.datanode.address: 0.0.0.0:9866
    hdfs:dfs.datanode.http.address: 0.0.0.0:9864
    hdfs:dfs.datanode.https.address: 0.0.0.0:9865
    hdfs:dfs.datanode.ipc.address: 0.0.0.0:9867
    hdfs:dfs.namenode.handler.count: '20'
    hdfs:dfs.namenode.http-address: 0.0.0.0:9870
    hdfs:dfs.namenode.https-address: 0.0.0.0:9871
    hdfs:dfs.namenode.lifeline.rpc-address: three-node-cluster-j6q2al2mkkqck-m:8050
    hdfs:dfs.namenode.secondary.http-address: 0.0.0.0:9868
    hdfs:dfs.namenode.secondary.https-address: 0.0.0.0:9869
    hdfs:dfs.namenode.service.handler.count: '10'
    hdfs:dfs.namenode.servicerpc-address: three-node-cluster-j6q2al2mkkqck-m:8051
    mapred-env:HADOOP_JOB_HISTORYSERVER_HEAPSIZE: '3840'
    mapred:mapreduce.job.maps: '21'
    mapred:mapreduce.job.reduce.slowstart.completedmaps: '0.95'
    mapred:mapreduce.job.reduces: '7'
    mapred:mapreduce.map.cpu.vcores: '1'
    mapred:mapreduce.map.java.opts: -Xmx2457m
    mapred:mapreduce.map.memory.mb: '3072'
    mapred:mapreduce.reduce.cpu.vcores: '1'
    mapred:mapreduce.reduce.java.opts: -Xmx2457m
    mapred:mapreduce.reduce.memory.mb: '3072'
    mapred:mapreduce.task.io.sort.mb: '256'
    mapred:yarn.app.mapreduce.am.command-opts: -Xmx2457m
    mapred:yarn.app.mapreduce.am.resource.cpu-vcores: '1'
    mapred:yarn.app.mapreduce.am.resource.mb: '3072'
    presto-jvm:MaxHeapSize: 12288m
    presto:query.max-memory-per-node: 7372MB
    presto:query.max-total-memory-per-node: 7372MB
    spark-env:SPARK_DAEMON_MEMORY: 3840m
    spark:spark.driver.maxResultSize: 1920m
    spark:spark.driver.memory: 3840m
    spark:spark.executor.cores: '2'
    spark:spark.executor.instances: '2'
    spark:spark.executor.memory: 5586m
    spark:spark.executorEnv.OPENBLAS_NUM_THREADS: '1'
    spark:spark.scheduler.mode: FAIR
    spark:spark.sql.cbo.enabled: 'true'
    spark:spark.yarn.am.memory: 640m
    yarn-env:YARN_TIMELINESERVER_HEAPSIZE: '3840'
    yarn:yarn.nodemanager.resource.memory-mb: '12288'
    yarn:yarn.scheduler.maximum-allocation-mb: '12288'
    yarn:yarn.scheduler.minimum-allocation-mb: '1024'
...