Загрузка паркетных файлов из HDFS происходит медленнее, чем из S3. Какие могут быть причины для этого? - PullRequest
0 голосов
/ 14 ноября 2018

У меня есть сотни паркетных файлов в HDFS.У меня также есть те же файлы в AWS S3.В кластере EMR я использую модель машинного обучения, которая может получать данные обучения из HDFS или из S3.

Когда он загружает данные из HDFS, это занимает больше времени, чем когда данные загружаются из S3.Не должно ли быть наоборот?В чем может быть причина (ы) для этого?

Очевидно, что аппаратное обеспечение (машины), используемые в кластере EMR, одинаково для обоих случаев.

1 Ответ

0 голосов
/ 15 ноября 2018

S3 имеет проблемы при загрузке большого количества файлов

У Hadoop возникают проблемы при использовании большого количества маленьких файлов (размер блока меньше 128 МБ)

Предполагая, что настройки YARN одинаковы, я бы посмотрел на скорость IOP для томов HDFS и убедился, что ваши NodeManager работают на тех же машинах, что и Datanodes

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...