Zeppelin - ваш лучший выбор, если облачная команда с радостью предоставит доступ к нему.
Интерпретатор %spark
в значительной степени spark-shell
работает в абзаце ноутбука.
Он также импортирует важные вещи, такие как spark.sql
, SparkContext
и т. Д. По умолчанию, поэтому вам не нужно ничего импортировать и вы можете просто запустить код, например:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
(spark-shell
может сделать это тоже, но я не использую это достаточно, чтобы узнать от руки)
Поскольку Zeppelin фактически работает на главном узле Spark, вы даже можете получить доступ к операционной системе главного узла с помощью интерпретатора оболочки %sh
например ::
%sh
ls /
aws s3 cp s3://mybucket/myfile /
Хотя ваш доступ, конечно, зависит от разрешений ОС.
Имейте в виду, что как только вы убьете кластер, ваш ноутбук тоже исчезнет! Не забудьте скачать его, когда это возможно.