Question

Я пытаюсь загрузить файл JSON в записную книжку EMR с ядром Spark. Я использую очень большой, проверенный EMR-кластер, с которым я работал раньше, поэтому размер кластера / вычислительная мощность не проблема. Простого кода ниже достаточно, чтобы воспроизвести мою проблему:

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

Вот файл JSON, который я пытаюсь загрузить. Это очень мало. https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

Я позволил ему работать в течение 1 часа. В левом нижнем углу написано: Spark | Busy, а кружок в верхнем правом углу заполнен, что указывает на то, что ядро работает. Однако Spark Job Progress показывает полосу Task Progress, которая никогда не прогрессирует. Любой совет?

user2205916 · Answer 1 · 27 февраля 2020

Проблема не в файле JSON. В попытке решить эту проблему, я просто клонировал проблемный кластер EMR c с точно такими же шагами / конфигурацией, подключил ноутбук EMR к клону и повторил попытку того же кода с тем же файлом. Это сработало почти мгновенно. Проблема была с оригинальным кластером, хотя я не знаю, что именно было.

AWS EMR для ноутбука Spark ядро бесконечно загружает небольшой JSON файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS EMR для ноутбука Spark ядро ​​бесконечно загружает небольшой JSON файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов

AWS EMR для ноутбука Spark ядро бесконечно загружает небольшой JSON файл