У меня есть сотни тысяч небольших паркетных файлов, которые я пытаюсь регулярно читать в Spark. Мое...
Ответ на этот вопрос отличается от приведенного в посте выше Я получаю сообщение об ошибке pyspark
Мне интересно, как у меня может быть два абсолютно одинаковых этапа, несмотря на то, что я кеширую...
Предположим, у меня есть DataFrame df в pySpark следующей формы: | id | type | description | | 1 |...
У меня есть фрейм данных с 20 столбцами и 25 записями (небольшие стандартные данные. Размер файла =...
Рассмотрим таблицу орков в улье с разделом в столбце dt_month, в котором содержатся все строки дней...
Продолжение до этого вопроса У меня потоковая передача данных в формате json, как показано ниже | A...
Я пытаюсь загрузить список в фрейм данных в рамках моих тестов с использованием функции toDF, но...
Я пытаюсь создать сеанс Spark в модульном тесте, используя приведенный ниже код val spark =...
У меня есть задание apache spark sql (с использованием наборов данных), написанное на Java, которое...
Я сталкиваюсь с NoClassDefFoundErrorfor org.apache.spark.sql.hive.HiveContext или org.apache.spark
У меня есть итеративный алгоритм, который обрабатывает 10-дневное скользящее окно. На каждой...
В настоящее время разрабатывается приложение, которое извлекает данные из текстовых файлов...
Мы пытаемся установить некоторые дополнительные свойства, такие как добавление пользовательских...
Динамическое присоединение к фреймам данных с использованием Spark Scala, когда столбцы JOIN...
Есть ли способ иметь несколько имен столбцов для одного конкретного столбца в Spark DataFrame?...
У меня есть пример дела: val df = ... // read from HDFS / file / ... println(df.count) val newDf =...
Итак, в моем PySpark DataFrame есть столбец (назовем его X), который должен быть double, но на...
Я хотел бы сделать несколько модульных тестов для функции внутри моего класса, упрощенный пример:...
Мы используем библиотеку spark-redshift для выгрузки из нашего кластера RS. Ковш S3 и кластер...
Я хочу изменить свои данные с 4x3 до 2x2 в pyspark без агрегирования. Мой текущий вывод следующий:...
У меня есть файл на HDFS с конфигурациями ниже размера блока. Status: HEALTHY Total size:...
у меня есть 30 столбцов в таблице, т.е. table_old Я хочу использовать 29 столбцов в этой таблице,...
Я пробовал библиотеку pygmalios / реактивныйinflux-spark , но ее зависимость подвержена ошибкам с...
Я определяю разделитель искры и хочу, чтобы он разбивал данные по ключам, в моем примере данные...