как спарк загружать файлы из HDFS и как это связано с RDD - PullRequest
0 голосов
/ 23 сентября 2018

Как зажигать данные из HDFS в кластере?
Как блоки преобразуются в RDD?

Допустим, у меня есть кластер из 3 узлов, и у меня есть файл с именем log.txt, который разделен на 3 блока.Все 3 узла имеют по одному в каждом блоке.

Как спарк-загрузка log.txt и как он будет преобразован в RDD?

1 Ответ

0 голосов
/ 24 сентября 2018

Spark ничем не отличается от любого клиента HDFS.

Наменод связывается с файлом, он возвращает расположение блоков, затем клиент HDFS извлекает блоки из узлов данных.

Блоки не «конвертируются» в СДР, скорее СДР - это просто метаданные, применяемые к Hadoop InputSplit s, которые сформированы из InputFormat RecordReader.СДР лениво оцениваются, поэтому они не представляют передачу или преобразование данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...