AWS EMR для ноутбука Spark ядро ​​бесконечно загружает небольшой JSON файл - PullRequest
0 голосов
/ 26 февраля 2020

Я пытаюсь загрузить файл JSON в записную книжку EMR с ядром Spark. Я использую очень большой, проверенный EMR-кластер, с которым я работал раньше, поэтому размер кластера / вычислительная мощность не проблема. Простого кода ниже достаточно, чтобы воспроизвести мою проблему:

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

Вот файл JSON, который я пытаюсь загрузить. Это очень мало. https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

Я позволил ему работать в течение 1 часа. В левом нижнем углу написано: Spark | Busy, а кружок в верхнем правом углу заполнен, что указывает на то, что ядро ​​работает. Однако Spark Job Progress показывает полосу Task Progress, которая никогда не прогрессирует. Любой совет?

1 Ответ

0 голосов
/ 27 февраля 2020

Проблема не в файле JSON. В попытке решить эту проблему, я просто клонировал проблемный кластер EMR c с точно такими же шагами / конфигурацией, подключил ноутбук EMR к клону и повторил попытку того же кода с тем же файлом. Это сработало почти мгновенно. Проблема была с оригинальным кластером, хотя я не знаю, что именно было.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...