Чтение файла из проекта Cloudera CDSW с помощью PySpark - PullRequest
0 голосов
/ 30 октября 2018

У меня есть файл в моем проекте Cloudera в папке "/home/cdsw/npi.json". Я попытался использовать следующие команды, чтобы использовать PySpark для чтения из моего «локального» проекта CDSW, но не смог получить ни одну из следующих команд. Все они выдают «Путь не существует»: ошибка

npi = sc.read.format("json").load("file:///home/cdsw/npi.json")

npi = sc.read.format("json").load("file:/home/cdsw/npi.json")

npi = sc.read.format("json").load("home/cdsw/npi.json")

1 Ответ

0 голосов
/ 30 октября 2018

Согласно этой документации, Доступ к данным из HDFS

С терминала скопируйте файл из локальный файл системы в HDFS. Либо используйте -put или -copyFromLocal.

hdfs dfs -put /home/cdsw/npi.json /destination

где /destination в HDFS.

Затем прочитайте файл в PySpark.

npi = sc.read.format("json").load("/destination/npi.json")

Для получения дополнительной информации:

1029 * ставить * put [-f] [-p] [-l] <localsrc> ... <destination> Копировать файлы из локальной файловой системы в fs. Копирование не удается, если файл уже существует, если не указан флаг -f.

...