Я пытаюсь обработать несколько большие данные для Kaggle Competition.
Объем обрабатываемых данных составляет около 80 ГБ, и он содержит 2 миллиарда строк x 6 столбцов.
Данные были помещены в Google Cloud Storage и пытались обработать это с помощью Google Datalab, но, поскольку данные слишком велики, мы столкнулись с сообщением об ошибке.
Итак, мы пытаемся использовать Pyspark с системой Google Dataproc.
По этому поводу у меня два вопроса:
1) Достаточно ли этой опции?
1 Экземпляр главного узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)
10 Экземпляр рабочего узла: n1-highmem-4 (vCPU: 4, RAM: 26 ГБ)
2) Нужен ли Google Compute Engine для работы с кластерными системами Google Dataproc?Если да, то что подходит в этом случае?
Спасибо, что прочитали это, и я буду ждать ваших ответов:)
Спасибо!