Сколько соединений будет создано между spark и hdfs при вызове sc.textFile ("hdfs: // .....") - PullRequest
0 голосов
/ 13 сентября 2018

Сколько соединений будет создано между spark и hdfs при вызове sc.textFile ("hdfs: // .....").Файл на hdfs очень большой (100G).

1 Ответ

0 голосов
/ 13 сентября 2018

На самом деле, основная идея, стоящая за распределенными системами и, конечно же, которая разработана и реализована в hadoop и spark, заключается в отправке процесса в данные. Другими словами, представьте, что некоторые данные находятся в узлах данных hdfs в нашем кластере, и у нас есть задание, которое использует эти данные на одном и том же работнике. На каждой машине у вас был бы узел данных, который одновременно является рабочим и может иметь некоторые другие процессы, такие как сервер региона hbase. Когда исполнитель выполняет одну из запланированных задач, он получает необходимые данные из базового узла данных. Затем для каждой отдельной задачи вы извлекаете ее данные, поэтому вы можете описать это как одно соединение с hdfs на его локальном узле данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...