У меня есть приложение структурированного потокового вещания Spark (v2.3.2), которое нуждается в...
Мне нужно прочитать несколько наборов данных по 5 гигабайт каждый.Каждый каталог directoryPath...
Мы попытались использовать локальный режим spark вместо кластерного режима, но в локальном режиме...
Учитывая данные, которые я извлек из Kafka. Как извлечь из него значения с помощью сопоставления с...
У меня есть DataFrame и список столбцов в виде строк, и мне нужно добавить столбец к исходному...
Spark 2.4.0 на Java 1.8.0_161 (Scala 2.11.12) Команда запуска: spark-shell --jars=spark-avro_2.11-2
Я создаю приложение Java RESTAPI Spring Boot, которое использует spark для получения данных с...
Я новичок в Scala и RDD. Я использую Scala на Spark 2.4. У меня есть RDD [String] с такими...
У меня есть данные в S3, я могу загрузить данные в S3, поскольку RDD применяет некоторые изменения,...
У меня есть дополнительные вопросы после этого поста: https://stackoverflow.com/a/39398750/5060792...
В настоящее время у меня возникают проблемы при попытке объединить (внутренний) огромный набор...
Я запускаю задание SPARK SQL в Yarn Cluster и сталкиваюсь с проблемой "java.lang
Мы запускаем работу Spark в Dataproc.Некоторое время мало работ застревает и не завершается.Мы...
пакет com.saprk.demo import org.apache.spark.sql.SparkSession object Hive { def main (args: Array...
Я пытаюсь обработать потоковые avro-данные из kafka, используя структурированную потоковую...
Есть ли способ напечатать сообщение отладки Kafka (я думаю о сообщениях журнала, которые похожи на...
У меня есть метод Test, который принимает один аргумент, который является HBase Result org.apache
Можно ли выполнить команду curl в spark rdd map ()? resultRDD = valuesRDD.map (value => / * curl...
Вы можете использовать S3 Select с Spark на Amazon EMR и с Databricks , но только для файлов CSV и...
У нас есть пользовательский класс файловой системы, который является расширением hadoop.fs
Сбой в задании My Spark с ошибкой YARN Container killed by YARN for exceeding memory limits 10.0 GB...
Я выполняю Spark Application в Hue Workflow (Oozie). (AWS EMR) Hadoop EMR 2.7.3 Hive 2.3.0 Hue 3.12
В настоящее время я выполняю задание на работу с Dataproc и получаю сообщения об ошибках, пытаясь...
Я использую java-искровой код, считывающий некоторые данные json и преобразующий одно из полей в...
Мой проект spark работает правильно (2.4.0), но когда я добавляю следующую зависимость:...