AWS EMR - поток данных от S3 к ядру и узлам задач - PullRequest
0 голосов
/ 27 июня 2018

Может ли кто-нибудь указать мне URL-адрес, который объясняет, как данные передаются из S3 в память в HDFS на дисковое пространство в задании, выполняемом в AWS EMR? Я понимаю роль, которую играют узлы Core и Task, но не ясно, как будут передаваться данные. например; Если я соединяю две таблицы в Hive, чьи данные находятся в S3. Будут ли данные сначала отправляться в HDFS, а затем в память или наоборот, и когда будет использоваться дисковое пространство на узлах задач? Как бы поток данных поступал на узлы задач, от мастер-узлов или базовых узлов?

Причина, по которой я задаю эти вопросы, заключается в том, что иногда мои задания терпят неудачу с сообщением "датододы плохие", в основном из-за полной HDFS, или узлы становятся неработоспособными из-за переполнения дискового пространства.

Итак, я пытаюсь выяснить роль каждого компонента. Когда кластер был включен заранее, мне никогда не приходилось сталкиваться с такими проблемами, поэтому теперь мне нужно лучше настроить мой кластер AWS.

Спасибо

...