У меня есть фрейм данных, и я могу выполнить агрегирование со статическими именами столбцов, т. Е....
когда я читаю из MySql базы данных, Map<String,String> jdbcOptions = new HashMap<String...
Таблица обновления блоков данных не работает с форматом orc. Я создал таблицу с форматом ORC в Hive...
Я пытаюсь прочитать таблицу Hive в Spark. Ниже приведен формат таблицы Улей: # Storage Information...
Я изо всех сил пытаюсь понять жизненный цикл переменной в искровых замыканиях и как сериализировать...
У меня есть фрейм данных Spark (scala), в котором некоторые столбцы данных являются необязательными...
Мне нужно прочитать данные из базы данных Oracle, используя JDBC с Spark (2.2). Чтобы свести к...
Я пытаюсь присоединить таблицу к себе. Я получаю строки таблицы, затем по второму запросу снова...
Рассмотрим следующий фрейм данных: #+------+---+ #|letter|rpt| #+------+---+ #| X| 3| #| Y| 1| #|...
Я использую numPartitions, lowerBound, upperBound в Spark Dataframe для извлечения больших таблиц...
Внешняя таблица Hive указывает на файлы на S3, ddl включает разделы по выражению eod. Под папкой...
У меня есть следующий код: - val kafkaStream = KafkaUtils.createStream[String, String,...
Существует ли функция Spark SQL для добавления часов, минут и секунд в существующий столбец отметки...
У меня есть ввод spark-dataframe с именем df как, +---------------+----+----+----+...
Я читаю CSV-файл с помощью следующего кода: - from pyspark.sql import SparkSession spark =...
Что мне делать, если я хочу выполнить некоторые преобразования в кадре данных Spark, и...
Как я могу указать спарку собирать статистику по столбцам только для определенного раздела? WARN...
Я работаю с фреймом данных со следующей схемой: root |-- Id: integer (nullable = true) |--...
У меня есть особый вариант использования, когда у меня есть несколько строк для одного и того же...
Я использую версию spark-2.0.2-bin-hadoop2.6 в режиме кластера StandAlone, и у меня есть один...
В этой документации: https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format
Я пытался собрать несколько полей в наборе данных и преобразовать их в формат массива json. Я...
Я хотел бы реплицировать все строки в моем DataFrame на основе значения данного столбца в каждой...
У меня есть следующий запрос sql spark SELECT count(*), channel FROM channelusage a WHERE a
Я пытаюсь вычислить де Колмогорова Тест Смирнова в SCALA с распределением [6,6], предполагая, что в...