Question

У меня есть сотни паркетных файлов в HDFS.У меня также есть те же файлы в AWS S3.В кластере EMR я использую модель машинного обучения, которая может получать данные обучения из HDFS или из S3.

Когда он загружает данные из HDFS, это занимает больше времени, чем когда данные загружаются из S3.Не должно ли быть наоборот?В чем может быть причина (ы) для этого?

Очевидно, что аппаратное обеспечение (машины), используемые в кластере EMR, одинаково для обоих случаев.

cricket_007 · Answer 1 · 15 ноября 2018

S3 имеет проблемы при загрузке большого количества файлов

У Hadoop возникают проблемы при использовании большого количества маленьких файлов (размер блока меньше 128 МБ)

Предполагая, что настройки YARN одинаковы, я бы посмотрел на скорость IOP для томов HDFS и убедился, что ваши NodeManager работают на тех же машинах, что и Datanodes

Загрузка паркетных файлов из HDFS происходит медленнее, чем из S3. Какие могут быть причины для этого?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка паркетных файлов из HDFS происходит медленнее, чем из S3. Какие могут быть причины для этого?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов