У меня есть этот исходный DF и некоторые переменные: val sourceDF = Seq( ("123",...
Я только что установил Anaconda, Apache spark, Pyspark, Scala на новую установку Linux Mint (все...
Из того, что я вижу, каждый драйвер занимает как минимум 1 процессор. Поэтому я хотел бы оставить...
Я использовал pyspark для обработки нескольких файлов журнала, в которых запись разбита на...
Я пытаюсь суммировать поле, содержащее массив, a = sc.parallelize([("a", [1,1,1]),...
Сводка Я попытался создать ExecutorPlugin . Я реализовал свой класс плагина внутри JAR приложения и...
/ Что я пытаюсь / Я хочу выполнить преобразование Spark UDF для нескольких блоков HDFS, содержащих...
Я пытаюсь читать и записывать файлы из корзины S3. Я создал пользователя IAM на своем портале AWS....
Я делаю серию искровых преобразований на stream = KafkaDStream<X>. DStream<V>...
Я получаю это сообщение об ошибке при попытке запустить интерпретатор Spark из Zepplein 0.8.2 java
Предположим, у меня есть следующие данные XML: <students>...
У меня есть проект Scala со следующим файлом build.sbt: name := "test" version := "0
Я пытаюсь перебрать много файлов во многих папках в файле данных. Я две идеи, как показано ниже. //...
Я пытаюсь использовать HashTF в Spark, но у меня есть одна серьезная проблема. Если у inputCol есть...
Если мое значение СДР равно: val a = sc.parallelize(1 to 5) и после некоторого кода, если я забыл,...
У меня есть файл json, который имеет следующую структуру: root |-- header: struct (nullable = true)...
У меня есть два кода Scala - MyMain.scala и MyFunction.scala, построенные отдельно, а встроенная...
В моем коде мне нужно объединить список на основе ключей Dstream. Моя цель - создать список слов,...
Когда я пытаюсь записать фрейм данных в виде паркета, размеры файлов неодинаковы. Хотя я не хочу...
Я использую скрипт для CDC Merge в потоковой передаче. Я хочу передать значения столбца в...
Я новичок в Python и Apache Spark и пытаюсь понять, как работает функция "pyspark.sql.functions
Я планирую улучшить свой навык Apache Spark. Я хотел знать, существуют ли какие-либо веб-сайты,...
У меня есть одно преобразование, единственная цель которого - удалить дубликаты. При использовании...
У нас есть приложение Spark Streaming (Kafka), которое также выступает в роли продюсера, создавая...
Я использую следующую команду для выполнения скрипта pyspark: spark-submit \ --packages org.apache