Как прочитать файлы всей папки в одну карту RDD в Spark? - PullRequest
0 голосов
/ 04 июня 2019

Я использую двоичные файлы для чтения файлов из HDFS, но одна карта содержит только один файл.

sparkContext.binaryFiles("hdfs://name/a/b/id-*.zzz").map(x=>{})

В фазе карты я могу иметь дело только с одним файлом. Могу ли я установить два или более файлов на одной карте и работать с ними параллельно?

1 Ответ

0 голосов
/ 05 июня 2019
def wholeTextFiles(
  path: String,
  minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope

Возвращает парный СДР, где ключом является Файл, а значением является Содержимое

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...