Как dataproc работает с облачным хранилищем Google? - PullRequest
0 голосов
/ 12 июня 2018

Я ищу работу Google DataProc с GCS.Я использую pyspark dataproc.Данные считываются и записываются в GCS. Но я не могу определить лучшие типы машин для моего варианта использования.Вопросы

1) Копирует ли spark на dataproc данные на локальный диск?Например, если я обрабатываю 2 ТБ данных, это нормально, если я использую 4 машинных узла с жестким диском на 200 ГБ?ИЛИ Я должен хотя бы предоставить диск, который может содержать входные данные?

2) Если локальный диск вообще не используется, то нормально ли использовать экземпляры с малым объемом памяти?

3)Если используется локальный диск, то какой тип экземпляра подходит для обработки 2 ТБ данных с минимально возможным количеством узлов?Я имею в виду, хорошо ли использовать SSD?

Спасибо

Manish

1 Ответ

0 голосов
/ 12 июня 2018

Spark считывает данные непосредственно в память и / или на диск в зависимости от того, используете ли вы RDD или DataFrame.У вас должно быть как минимум достаточно диска для хранения всех данных.Если вы выполняете соединения, то количество необходимого диска увеличивается для обработки случайных разливов.

Это уравнение изменяется, если вы отбрасываете значительный объем данных посредством фильтрации.

Используете ли вы pd-standard, pd-ssd или local-ssd сводятся к стоимости, и если ваше приложение связано с процессором или вводом-выводом.

Дисковый IOPS пропорционален размеру диска, поэтому очень маленькие диски нежелательны.Имейте в виду, что диск (относительно процессора) дешевый.

Тот же совет относится к сетевому вводу-выводу: больше процессоров = больше пропускной способности.

Наконец, настройки Dataproc по умолчанию являются разумным местом для начала экспериментов.и настройки ваших настроек.

Источник: https://cloud.google.com/compute/docs/disks/performance

...