проблема, с которой я сейчас сталкиваюсь - это попытка найти лучший экземпляр AWS для разделения больших данных (с масштабированием более 1 ТБ).Данные, которые я получаю, являются структурированными данными, и я надеюсь разделить их на / год / месяц / день / или / год / месяц / день / час созданного времени.До сих пор я пытался использовать EMR со следующими конфигурациями для разделения 260 ГБ данных паркета в / год / месяц / день (spark.dynamicAllocation.enabled == true):
3 r5.2xlarge (8 vCPU, 64 ГБ) ->> 1 час для простой записи в HDFS
2 c5.4xlarge (16 vCPU, 32 ГБ) -> >> 1 час для простой записи в HDFS (был на 28% медленнее, чем для 3 r5.2xlarge)
2 r5d.4xlarge (16 vCPU, 128 ГБ) -> 54 минуты для простой записи в HDFS (обратите внимание, HDFS находится на SSD NVMe)
Это график того, что 3 r5.2xlarge производит:
Это график того, что производит 2 c5.4xlarge (примечание,два пика связаны с выполнением задания дважды):
Это график того, что 2 r5d.4xlarge производит:
Могу ли я достичь ~ 10 минут?Если так, это будет означать добавление большего количества узлов или другого типа экземпляра?