У меня есть сотни паркетных файлов в HDFS.У меня также есть те же файлы в AWS S3.В кластере EMR я использую модель машинного обучения, которая может получать данные обучения из HDFS или из S3.
Когда он загружает данные из HDFS, это занимает больше времени, чем когда данные загружаются из S3.Не должно ли быть наоборот?В чем может быть причина (ы) для этого?
Очевидно, что аппаратное обеспечение (машины), используемые в кластере EMR, одинаково для обоих случаев.