Question

Сколько соединений будет создано между spark и hdfs при вызове sc.textFile ("hdfs: // .....").Файл на hdfs очень большой (100G).

epcpu · Answer 1 · 13 сентября 2018

На самом деле, основная идея, стоящая за распределенными системами и, конечно же, которая разработана и реализована в hadoop и spark, заключается в отправке процесса в данные. Другими словами, представьте, что некоторые данные находятся в узлах данных hdfs в нашем кластере, и у нас есть задание, которое использует эти данные на одном и том же работнике. На каждой машине у вас был бы узел данных, который одновременно является рабочим и может иметь некоторые другие процессы, такие как сервер региона hbase. Когда исполнитель выполняет одну из запланированных задач, он получает необходимые данные из базового узла данных. Затем для каждой отдельной задачи вы извлекаете ее данные, поэтому вы можете описать это как одно соединение с hdfs на его локальном узле данных.

Сколько соединений будет создано между spark и hdfs при вызове sc.textFile ("hdfs: // .....")

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сколько соединений будет создано между spark и hdfs при вызове sc.textFile ("hdfs: // .....")

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов