Лучший экземпляр AWS для разделения больших данных - PullRequest
0 голосов
/ 26 октября 2018

проблема, с которой я сейчас сталкиваюсь - это попытка найти лучший экземпляр AWS для разделения больших данных (с масштабированием более 1 ТБ).Данные, которые я получаю, являются структурированными данными, и я надеюсь разделить их на / год / месяц / день / или / год / месяц / день / час созданного времени.До сих пор я пытался использовать EMR со следующими конфигурациями для разделения 260 ГБ данных паркета в / год / месяц / день (spark.dynamicAllocation.enabled == true):

3 r5.2xlarge (8 vCPU, 64 ГБ) ->> 1 час для простой записи в HDFS
2 c5.4xlarge (16 vCPU, 32 ГБ) -> >> 1 час для простой записи в HDFS (был на 28% медленнее, чем для 3 r5.2xlarge)

2 r5d.4xlarge (16 vCPU, 128 ГБ) -> 54 минуты для простой записи в HDFS (обратите внимание, HDFS находится на SSD NVMe)

Это график того, что 3 r5.2xlarge производит:
enter image description here

Это график того, что производит 2 c5.4xlarge (примечание,два пика связаны с выполнением задания дважды):
enter image description here

Это график того, что 2 r5d.4xlarge производит:
desc.

Могу ли я достичь ~ 10 минут?Если так, это будет означать добавление большего количества узлов или другого типа экземпляра?

...