Совпадение части rdd как пути для saveAsHadoopFile - PullRequest
0 голосов
/ 10 января 2019

У меня есть rdd с документом и URL-адрес, который я изменил, чтобы включить в качестве аргумента пути saveAsHadoopFile () также с именем файла, являющимся хэшем пути URL-адреса. Мой код:

path_for_hdfs = documents.map(lambda url: (url[1], url_reverser(url[1], 
split=True))).map(lambda url: (
                  url[0],
                  '/'.join(url[1][0].split('.')),
                  hashlib.sha256(bytes(url[1][1], 'utf8'))\
             .hexdigest()))

Это просто код для понимания вышесказанного. Но моя проблема не в этом коде. Я хотел бы сделать что-то вроде

path_for_hdfs.rdd.map(lambda document: document[0]\
                      .saveAsHadoopFile(path=document[1]+document[2]))

Этот код не будет работать, так как document [0] не является rdd, но его цель - получить представление о том, что я хочу

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...