Как загрузить локальный файл в Spark, используя блокнот Jupyter в кластере EMR? - PullRequest
0 голосов
/ 24 октября 2019

Я пытаюсь загрузить локальный файл на главном узле EMR в Spark и запустить ноутбук Jupyter. Я продолжаю получать ошибки от узлов задач, говоря, что файл не существует, но я попытался установить для конфигурации spark значение local, поэтому я не уверен, как это исправить. Следующее работает, когда я раскручиваю кластер с 1 узлом, но не получается, когда у меня есть что-то большее:

spark = SparkSession.builder \
        .master("local") \
        .appName("Test") \

df = spark.read.csv('/home/hadoop/dataset.csv')

df.show(n=5)

Я попытался перезапустить ядро ​​ноутбука Jupyter, но это ничего не исправило. Поэтому я хотел бы знать, как транслировать / передавать локальный файл на весь кластер или создать работающий экземпляр SparkSession. Я также использую новый AWS JupyterHub, если это что-то меняет

...