У меня есть rdd с документом и URL-адрес, который я изменил, чтобы включить в качестве аргумента пути saveAsHadoopFile () также с именем файла, являющимся хэшем пути URL-адреса. Мой код:
path_for_hdfs = documents.map(lambda url: (url[1], url_reverser(url[1],
split=True))).map(lambda url: (
url[0],
'/'.join(url[1][0].split('.')),
hashlib.sha256(bytes(url[1][1], 'utf8'))\
.hexdigest()))
Это просто код для понимания вышесказанного. Но моя проблема не в этом коде. Я хотел бы сделать что-то вроде
path_for_hdfs.rdd.map(lambda document: document[0]\
.saveAsHadoopFile(path=document[1]+document[2]))
Этот код не будет работать, так как document [0] не является rdd, но его цель - получить представление о том, что я хочу