Запрашивая соответствующую спецификацию кластера для Google Dataproc для обработки наших данных - PullRequest
0 голосов
/ 30 сентября 2018

Я пытаюсь обработать несколько большие данные для Kaggle Competition.

Объем обрабатываемых данных составляет около 80 ГБ, и он содержит 2 миллиарда строк x 6 столбцов.

Данные были помещены в Google Cloud Storage и пытались обработать это с помощью Google Datalab, но, поскольку данные слишком велики, мы столкнулись с сообщением об ошибке.

Итак, мы пытаемся использовать Pyspark с системой Google Dataproc.

По этому поводу у меня два вопроса:

1) Достаточно ли этой опции?

  • 1 Экземпляр главного узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)

  • 10 Экземпляр рабочего узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)

2) Нужен ли Google Compute Engine для работы с кластерными системами Google Dataproc?Если да, то что подходит в этом случае?

Спасибо, что прочитали это, и я буду ждать ваших ответов:)

Спасибо!

1 Ответ

0 голосов
/ 01 октября 2018

Итак, сначала я попытаюсь обратиться к вопросу Compute Engine против Dataproc, а затем перейти к определению размера кластера.

Compute Engine - это предложение Google для IaaS, и в основном это сервис для раскрутки виртуальных машин.Google Dataproc использует Google Compute Engine для ускорения виртуальных машин, которые будут действовать как узел / мастер в вашем кластере.Более того, Dataproc уже устанавливает и настраивает несколько узлов на узлах, поэтому вам не нужно об этом заботиться.Если вам нужно больше ресурсов на узлах, Google поддерживает набор сценариев , которые можно использовать для установки дополнительных зависимостей в кластере.Итак, для ответа на ваш вопрос вам понадобится Google Compute Engine в том смысле, что без него вы не сможете раскрутить кластер.И, если вы уже настроены на использование PySpark, Dataproc - правильный выбор.

Что касается размера, то он действительно зависит от того, какой анализ вы выполняете и распределяются ли данные равномерно.Если у вас есть горячая клавиша / осколок, чьи данные больше памяти одного узла, вам нужно увеличить размер узла.Если вычисления требуют значительных ресурсов процессора, добавьте ядра.Хорошая вещь о Google Dataproc заключается в том, что вы можете раскрутить кластер за 90 секунд и разорвать его примерно за то же время.Это должно дать вам возможность немного поэкспериментировать!

Надеюсь, это поможет!

...