Я пытаюсь загрузить локальный файл на главном узле EMR в Spark и запустить ноутбук Jupyter. Я продолжаю получать ошибки от узлов задач, говоря, что файл не существует, но я попытался установить для конфигурации spark
значение local
, поэтому я не уверен, как это исправить. Следующее работает, когда я раскручиваю кластер с 1 узлом, но не получается, когда у меня есть что-то большее:
spark = SparkSession.builder \
.master("local") \
.appName("Test") \
df = spark.read.csv('/home/hadoop/dataset.csv')
df.show(n=5)
Я попытался перезапустить ядро ноутбука Jupyter, но это ничего не исправило. Поэтому я хотел бы знать, как транслировать / передавать локальный файл на весь кластер или создать работающий экземпляр SparkSession
. Я также использую новый AWS JupyterHub, если это что-то меняет