Spark ничем не отличается от любого клиента HDFS.
Наменод связывается с файлом, он возвращает расположение блоков, затем клиент HDFS извлекает блоки из узлов данных.
Блоки не «конвертируются» в СДР, скорее СДР - это просто метаданные, применяемые к Hadoop InputSplit
s, которые сформированы из InputFormat
RecordReader
.СДР лениво оцениваются, поэтому они не представляют передачу или преобразование данных