Может ли кто-нибудь указать мне URL-адрес, который объясняет, как данные передаются из S3 в память в HDFS на дисковое пространство в задании, выполняемом в AWS EMR?
Я понимаю роль, которую играют узлы Core и Task, но не ясно, как будут передаваться данные.
например; Если я соединяю две таблицы в Hive, чьи данные находятся в S3. Будут ли данные сначала отправляться в HDFS, а затем в память или наоборот, и когда будет использоваться дисковое пространство на узлах задач?
Как бы поток данных поступал на узлы задач, от мастер-узлов или базовых узлов?
Причина, по которой я задаю эти вопросы, заключается в том, что иногда мои задания терпят неудачу с сообщением "датододы плохие", в основном из-за полной HDFS, или узлы становятся неработоспособными из-за переполнения дискового пространства.
Итак, я пытаюсь выяснить роль каждого компонента.
Когда кластер был включен заранее, мне никогда не приходилось сталкиваться с такими проблемами, поэтому теперь мне нужно лучше настроить мой кластер AWS.
Спасибо