Я изучаю различные варианты упаковки приложения Spark, и меня смущает, какой режим является лучшим...
У меня есть фрейм данных, где у меня есть несколько столбцов, которые содержат векторы (число...
Я пытался протестировать приложение spark на моем локальном ноутбуке, прежде чем развертывать его в...
AWS Glue выглядит многообещающе, но у меня есть проблема с временем цикла разработки.Если я...
У меня есть spark 2.4.0, и у меня есть фрейм данных scala> dfExport.show(5)...
Итак, я новичок в Scala и только начинаю работать с RDD и функциональными операциями Scala. Я...
У меня есть список, содержащий случайное количество элементов Список Emp 101 [a, b, c, d, e] 102 [q...
Я много читал о кластере hadoop и различных вариантах хранения наших реляционных данных в hadoop,...
У меня много запросов Spark SQL к таблицам AWS Athena, сохраненным в виде текстовых файлов.Могу ли...
Я хочу получить доступ к файлу json из S3 с помощью json play fromework val...
Я работаю над настройкой категориальных переменных для моделей с искровым ML. Вместо столбца с...
С помощью pyspark на GCP я иногда получаю сообщения типа AnalysisException: "Database...
Я получаю данные из таблицы sql, используя этот код, когда я запускаю в терминале pyspark на...
java.lang.UnsupportedOperationException: Схема для типа [trait object] не поддерживается trait...
Я не вижу разницы между DecisionTree.trainClassifier и DecisionTree.train методами. В коде для...
Я пытаюсь передать пароль в качестве аргумента в команде отправки Spark. Как только этот пароль...
Я занимаюсь разработкой программного обеспечения на основе scala-spark, и мне нужно сначала...
Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS....
У меня есть сценарий использования, который должен прочитать вложенную схему JSON и записать ее...
Учитывая следующую ситуацию / настройку: команда разработчиков из 5-6 парней 5 взаимозависимых...
У меня есть две работы Spark, которые в основном подписываются на один и тот же EventHub с группой...
Это не повторяющийся вопрос, и я пробовал так много способов сделать эту работу, но не сработал Я...
Моя команда spark-submit: spark-submit --deploy-mode cluster --class spark_package.import_jar...
Я ищу способ оптимизировать код, подобный этому: // for each line do many string concatenations...
Я создал банку, используя mavan и intellij, и попытался запустить банку. Я получаю следующую ошибку