У меня есть фрейм данных: yearDF со следующими столбцами: name, id_number, location,...
У меня есть кластер искр и воздушных потоков, который построен с помощью док-роя.Контейнер...
Я пытаюсь установить пакет SparkR в R в версии Cloudera 5.14.Я установил JAVA_HOME и SPARK_HOME...
Я запускаю программу spark в scala и получаю ошибку ниже времени выполнения: Exception in thread...
Я пытаюсь определить схему для файла CSV, используя case class в Scala. case class userSchema(name...
Когда я читаю код Python других людей, например, spark.read.option("mergeSchema",...
Я присоединился к двум фреймам данных и сейчас пытаюсь получить отчет, состоящий из столбцов из...
Как зажигать данные из HDFS в кластере? Как блоки преобразуются в RDD? Допустим, у меня есть...
Мой скалярный код Spark выглядит так: val input = sc.newAPIHadoopRDD(jconf, classOf[CqlInputFormat]...
Я использую spark-cassandra-connector_2.11-2.0.0.jar для подключения к Cassandra (версия 2.1.9)
Я хочу выбрать несколько столбцов из DF. Между столбцами мне нужно добавить разные пробелы, так как...
Попытка построить образ из предоставленной загрузки.Используется опция загрузки пакета «Исходный...
Я пытаюсь запустить искровой код, который будет читать таблицу в базе данных postgres и вставлять...
Используя PySpark, я хочу получить максимальное значение среди всех ключей пары RDD.Данные базового...
Я пытаюсь запустить кластер H2O автоматически во внешнем бэкэнде, как описано в этой документации ....
Мы создаем приложение на основе Spark, используя Spark 2.3.0.Наши рабочие места Spark...
Я изучаю Spark и начинаю понимать, как Spark распределяет данные и объединяет результаты.Я пришел к...
Я работаю с данными с отметками времени, которые содержат наносекунды, и пытаюсь преобразовать...
Есть ли быстрый и эффективный способ разворачивать данные?Я использовал следующие методы, и хотя...
Образец DF: var someDF = Seq( (1, "2017-12-02 03:04:00"), (1, "2017-12-02...
У меня есть два фрейма данных, которые я объединяю с помощью объединения.После выполнения...
Я использую Spark для подключения к Кассандре.Входные разбиения: Input split:...
У меня есть требование, при котором я должен читать файлы паркета в разных каталогах в HDFS
org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 0.0 не...
У меня есть две большие таблицы, разбитые по столбцу даты.Они сохраняются в виде паркетных файлов в...