Согласно этой документации, Доступ к данным из HDFS
С терминала скопируйте файл из локальный файл системы в HDFS
. Либо используйте -put
или -copyFromLocal
.
hdfs dfs -put /home/cdsw/npi.json /destination
где /destination
в HDFS
.
Затем прочитайте файл в PySpark
.
npi = sc.read.format("json").load("/destination/npi.json")
Для получения дополнительной информации:
1029 * ставить *
put [-f] [-p] [-l] <localsrc> ... <destination>
Копировать файлы из локальной файловой системы в fs. Копирование не удается, если файл уже
существует, если не указан флаг -f.