Я пытаюсь загрузить файл JSON в записную книжку EMR с ядром Spark. Я использую очень большой, проверенный EMR-кластер, с которым я работал раньше, поэтому размер кластера / вычислительная мощность не проблема. Простого кода ниже достаточно, чтобы воспроизвести мою проблему:
val df = spark.read.json("s3a://src/main/resources/zipcodes.json")
Вот файл JSON, который я пытаюсь загрузить. Это очень мало. https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json
Я позволил ему работать в течение 1 часа. В левом нижнем углу написано: Spark | Busy
, а кружок в верхнем правом углу заполнен, что указывает на то, что ядро работает. Однако Spark Job Progress
показывает полосу Task Progress
, которая никогда не прогрессирует. Любой совет?