В локальной / автономной установке Zeppelin ...
Есть большая вероятность, что по умолчанию ваш ноутбук Zeppelin (и базовый стек Spark) настроен на поиск в HDFS относительных путей к файлам.
Следовательно, вам, вероятно, нужно использовать абсолютный путь к файлу, указав, что вы работаете в своей файловой системе.
data = spark.csv.read("file:///data/your_path/banks.csv")
В кластерной установке Zeppelin
Если ваш Ноутбук подключается к кластеру, установленному Spark, тогда доступ к локальной файловой системе не является хорошей идеей (вам придется вручную развертывать файлы на всех узлах кластера, держать их в синхронизации c ...) ... Вот почему HDFS предназначен для.
Таким образом, лучшим вариантом будет воспользоваться этим. Поместите ваш файл где-нибудь в хранилище HDFS, затем загрузите его из спарк через hdfs.
В вашей оболочке:
hdfs dfs -put /file_system_path/banks.csv "/user/zeppelin/banks.csv"
Обратите внимание, что фактический путь, куда могут быть помещены ваши файлы HDFS, будет зависит от установки вашего кластера.
Тогда Spark сможет загрузить его:
spark.csv.read("/user/zeppelin/banks.csv")
Конечно, есть и другие способы, кроме HDFS, чтобы сделать это. Например, Spark может подключиться к S3, и если это подходит вам лучше, чем HDSF, это возможность (read("s3a://...")
)