Как определить имя источника СДР при обработке каталога HDFS - PullRequest
0 голосов
/ 15 марта 2019

В spark вы можете использовать sc.texFile для обработки каталога HDFS , как мне распечатать текущее имя файла , обрабатываемое в процессе, вместе с содержимым файла?

def get_data(x):
    return (x) #I want this to return source file name + line content

textFile = sc.textFile("hdfs://hadoop.localdomain/user/sw/pdf/") #porcess WHOLE directory

words_filter = textFile.map(get_data)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...