Я обрабатываю файлы CSV из S3 с помощью pyspark, однако я хочу включить имя файла в качестве нового...
Я пытаюсь передавать данные с s3 и хранить их локально.Я передам получить имя вновь созданного...
Я пытаюсь прочитать файл csv в фрейм данных из AWS S3 с использованием потоковой передачи Spark,...
У меня есть приложение IoT, в котором я получаю данные от различных счетчиков энергии и счетчиков...
Попытка заменить ноль на 0 в кадре данных, используя UDF ниже. Там, где я могу ошибаться, код...
У меня есть вложенный JSON, где мне нужно преобразовать в плоский DataFrame, не определяя и не...
У меня есть задание spark, которое выполняется в кластере с включенным динамическим распределением...
Я обрабатываю поток данных из Кафки, используя структурированный поток с pyspark. Я хочу...
У меня есть пример файла, в котором есть строка json, как обработать этот тип файла в spark. Пример...
Я пытаюсь использовать окно структурированной потоковой передачи с помощью spark и kafka.Я...
Как периодически выполнять запрос MSCK REPAIR TABLE database.table неблокирующим способом?...
Я пытаюсь определить статус завершения на разных уровнях детализации.Например, регион является...
У меня есть много CSV spark.readStream в разных местах, я должен проверить все их с помощью scala,...
Сценарий: У меня есть следующий кадр данных, как показано ниже ``` --...
Последняя версия Kafka, доступная для скачивания, - Kafka 2.1.0.Но чтобы использовать Kafka в Spark...
У меня серьезная проблема с производительностью искрового потока.Для 10-секундного интервала...
Я пытаюсь сохранить данные с локального экземпляра Kafka на локальный Postgres с помощью Spark...
Я хочу посчитать количество пропущенных значений в каждой строке фрейма данных в режиме искры scala...
Я пытаюсь прочитать файл с разделителями, разделенный табуляцией, но не могу прочитать все записи....
У меня есть записная книжка Pyspark, которая подключается к брокеру kafka и создает искровой...
Мы работаем над приложением Spark Streaming, в котором оно получает данные из kafka. У нас есть...
У меня есть датафрейм со списком столбцов; один из столбцов - это key_time разной длины. Мне нужно...
Я пытался ./spark-2.3.1-bin-hadoop2.7/bin/spark-submit --packages org.apache
Люди, Требуется предложение и помощь в группировке логики и обработке более 10 миллионов записей....
У меня есть Dstream от kafka, я хочу выбрать из него столбцы.Ниже приведен код, который я реализую,...