Я пытаюсь использовать Spark SQL из Scala IDE, который я установил без Maven. У меня Spark 1.5.1 в...
У меня есть следующий искровой фрейм данных: from pyspark.sql import SparkSession spark =...
У меня есть dataFrame unionDataDF с образцами данных +---+------------------+----+ | id| data| key|...
У меня есть искровой фрейм данных с 3 столбцами, которые указывают положения атомов. I-e Положение...
Я пытаюсь читать потоковые данные в режиме реального времени из тем Kafka через структурированную...
следующий код: from pyspark import * from pyspark.sql import * spark=SparkContext()...
Я пытаюсь использовать Spark для обработки CSV-файла в кластере. Я хочу понять, нужно ли мне явно...
У меня есть следующие данные в Улей: id sequence app time1 time2 first_d_seq last_d_seq 2456 1 a...
У меня есть события с "id and Map[String, List]" данными. Я группирую эти данные по id....
Как я могу объединить массив в фрейм данных, содержащий колонны [a, b, c, d, e] root |-- arry:...
Я пытаюсь этот пример: https://backtobazics.com/big-data/spark/apache-spark-aggregatebykey-example/...
Я хочу смонтировать ведро s3 через DBFS, и ни в одном из этих руководств не указано, какие...
Предположим, у меня Dataset<Row> вот так Day User isInstall isPlayed 1 U1 1 1 1 U2 1 0 1 U3 0...
Я пытаюсь прочитать файл Excel с помощью Spark CLI, но получаю сообщение об ошибке «org.apache.poi
Мне нужно получить среднее значение и количество для данного кадра данных, а также получить ранее...
У меня есть Dataset<Row>, который содержит шесть столбцов, как показано ниже:...
Как получить нулевые значения в json после преобразования Dataframe в строку Json в spark Я пытался...
Я работал с 7 исполнителем, я сделал persist(StorageLevel.MEMORY_ONLY_SER). Когда я смотрел на...
Моя искровая работа: def saveCount(spark: SparkSession, cnt: Long): Unit = { val fs = FileSystem
У меня есть следующий предикат соединения Apache Spark SQL: t1.field1 = t2.field1 and t2.start_date...
У меня есть несколько CSV-файлов, которые я хочу загрузить в таблицу кустов, моя проблема в том,...
Я работаю над настройкой компьютеров EC2 с автономным кластером Spark, Hive, Apache Ranger.Улей...
Я хотел бы добавить (добавить) новый столбец к существующему фрейму данных с несколькими столбцами....
Я пытаюсь изменить версию spark 2.2.1 на 2.4.0 В спарке 2.2, после работало нормально. val query =...
Как я могу получить все имена массивов в Dataframe? Проблема в том, что я пытаюсь взорвать ВСЕ...