Question

Я пытаюсь обработать несколько большие данные для Kaggle Competition.

Объем обрабатываемых данных составляет около 80 ГБ, и он содержит 2 миллиарда строк x 6 столбцов.

Данные были помещены в Google Cloud Storage и пытались обработать это с помощью Google Datalab, но, поскольку данные слишком велики, мы столкнулись с сообщением об ошибке.

Итак, мы пытаемся использовать Pyspark с системой Google Dataproc.

По этому поводу у меня два вопроса:

1) Достаточно ли этой опции?

1 Экземпляр главного узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)
10 Экземпляр рабочего узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)

2) Нужен ли Google Compute Engine для работы с кластерными системами Google Dataproc?Если да, то что подходит в этом случае?

Спасибо, что прочитали это, и я буду ждать ваших ответов:)

Спасибо!

marcyb5st · Answer 1 · 01 октября 2018

Итак, сначала я попытаюсь обратиться к вопросу Compute Engine против Dataproc, а затем перейти к определению размера кластера.

Compute Engine - это предложение Google для IaaS, и в основном это сервис для раскрутки виртуальных машин.Google Dataproc использует Google Compute Engine для ускорения виртуальных машин, которые будут действовать как узел / мастер в вашем кластере.Более того, Dataproc уже устанавливает и настраивает несколько узлов на узлах, поэтому вам не нужно об этом заботиться.Если вам нужно больше ресурсов на узлах, Google поддерживает набор сценариев , которые можно использовать для установки дополнительных зависимостей в кластере.Итак, для ответа на ваш вопрос вам понадобится Google Compute Engine в том смысле, что без него вы не сможете раскрутить кластер.И, если вы уже настроены на использование PySpark, Dataproc - правильный выбор.

Что касается размера, то он действительно зависит от того, какой анализ вы выполняете и распределяются ли данные равномерно.Если у вас есть горячая клавиша / осколок, чьи данные больше памяти одного узла, вам нужно увеличить размер узла.Если вычисления требуют значительных ресурсов процессора, добавьте ядра.Хорошая вещь о Google Dataproc заключается в том, что вы можете раскрутить кластер за 90 секунд и разорвать его примерно за то же время.Это должно дать вам возможность немного поэкспериментировать!

Надеюсь, это поможет!

Запрашивая соответствующую спецификацию кластера для Google Dataproc для обработки наших данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запрашивая соответствующую спецификацию кластера для Google Dataproc для обработки наших данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы