я использую: ` dataset.withColumn("lead",lead(dataset.col(start_date),1)
У меня есть огромные почти миллиарды строк в базе данных HBase. Я пишу задание Spark, которое...
Должен ли я использовать постоянство или изменить операцию groupBy? def joinTests(measurements:...
Я пытаюсь запустить экспоненциально взвешенное скользящее среднее в PySpark с использованием UDF...
У меня есть DataFrame, который выглядит следующим образом |Start |End |Description|Value|...
Я использую зависимость: version := "0.1" scalaVersion := "2.2.0"...
Я выполнил подсчет попыток (пользователь, приложение) за временной промежуток дня (86400). Я хочу...
У меня есть следующий код, который в основном выполняет конвейер разработки функций:...
Мы должны написать запрос SparkSQL, чтобы получить только предыдущую и следующую строку...
Предположим, у меня есть СДР, ключи которого имеют вид [1, 2, 3, 4, 5...], теперь я хочу...
У меня есть фрейм данных Spark, как показано ниже - val myDF = Seq( (1,"A",100,0,0), (1...
Примечание: Моя группировка может содержать до 5-10 тыс. Строк на группу для агрегации. Поэтому...
Говорят, что установка spark.sql.thriftServer.incrementalCollect = true предотвращает остановку...
Я ищу способ получить новый столбец во фрейме данных в Scala, который вычисляет min / max значений...
В настоящее время я работаю над набором данных StackOverflow из открытых наборов данных Google...
Я забыл дать псевдоним производному столбцу при создании таблицы в HIVE из оператора SELECT. CREATE...
Привет, у меня есть набор данных выглядит как: мой вклад: +----------+----------------+ | id | flag...
Окружающая среда Скала Apache Spark: Spark 2.2.1 EMR на AWS: emr-5.12.1 Содержание У меня есть один...
В моей программе Spark есть несколько объединений таблиц (с использованием SPARKSQL), и я хотел бы...
Попытка создать RDD из набора данных, пытаясь сопоставить каждую строку в наборе данных. Получение...
Моя текущая работа заключается в создании процессов ETL с SparkSQL / Scala с использованием Spark 2
Я получаю сообщение об ошибке при использовании широковещательной переменной внутри функции...
Обратите внимание, что этот вопрос не является дубликатом этого ! Я не использую Spark SQL для...
Итак, я пытаюсь сгенерировать XML, который имеет структуру ниже. <n:Brands> <n:Brand>...
String folder = "/Users/test/data/*/*"; sparkContext.textFile(folder, 1).toJavaRDD()...