Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

Исключение в потоке "main".

Я пытаюсь использовать Spark SQL из Scala IDE, который я установил без Maven. У меня Spark 1.5.1 в...

Adeel Umer / 03 апреля 2019

0 голосов

1 ответ

Как получить уникальные значения в каждом окне в фрейме данных pyspark

У меня есть следующий искровой фрейм данных: from pyspark.sql import SparkSession spark =...

Sascha / 03 апреля 2019

0 голосов

1 ответ

Spark: создать группу JSON по идентификатору

У меня есть dataFrame unionDataDF с образцами данных +---+------------------+----+ | id| data| key|...

user811602 / 03 апреля 2019

0 голосов

1 ответ

Как вычесть каждую строку в кадрах искровых данных из каждой другой строки в pyspark?

У меня есть искровой фрейм данных с 3 столбцами, которые указывают положения атомов. I-e Положение...

Usman Khan / 03 апреля 2019

0 голосов

0 ответов

Как я могу сохранить Kafka для чтения структурированных потоковых данных как Dataframe и применить к нему синтаксический анализ?

Я пытаюсь читать потоковые данные в режиме реального времени из тем Kafka через структурированную...

BigData newbie / 03 апреля 2019

0 голосов

1 ответ

невозможно отобразить фрейм данных с помощью .show () в pyspark

следующий код: from pyspark import * from pyspark.sql import * spark=SparkContext()...

Toshirro / 03 апреля 2019

0 голосов

1 ответ

Распределяет ли Spark фрейм данных по узлам внутри?

Я пытаюсь использовать Spark для обработки CSV-файла в кластере. Я хочу понять, нужно ли мне явно...

sid / 03 апреля 2019

0 голосов

1 ответ

Как выбрать конкретные строки на основе логики в сгруппированных данных?

У меня есть следующие данные в Улей: id sequence app time1 time2 first_d_seq last_d_seq 2456 1 a...

Isaac / 03 апреля 2019

0 голосов

1 ответ

Использование набора данных в «MapGroupsWithState» Spark SQL

У меня есть события с "id and Map[String, List]" данными. Я группирую эти данные по id....

ogma / 02 апреля 2019

0 голосов

1 ответ

выровнять массив в рамках Dataframe в Spark

Как я могу объединить массив в фрейм данных, содержащий колонны [a, b, c, d, e] root |-- arry:...

J-kram / 02 апреля 2019

0 голосов

1 ответ

Как решить, что «aggregateByKey не является членом org.apache.spark.sql.Dataset» в Spark?

Я пытаюсь этот пример: https://backtobazics.com/big-data/spark/apache-spark-aggregatebykey-example/...

Shyam / 02 апреля 2019

0 голосов

1 ответ

Как использовать dbutils в спарк?

Я хочу смонтировать ведро s3 через DBFS, и ни в одном из этих руководств не указано, какие...

hey_you / 02 апреля 2019

1 голос

2 ответов

Получить различный счет на две агрегации на основе двух разных подмножеств данных с группировкой по

Предположим, у меня Dataset<Row> вот так Day User isInstall isPlayed 1 U1 1 1 1 U2 1 0 1 U3 0...

himanshu srivastava / 02 апреля 2019

0 голосов

1 ответ

Ошибка в Spark при чтении в Excel: org.apache.poi.openxml4j.exceptions.InvalidFormatException

Я пытаюсь прочитать файл Excel с помощью Spark CLI, но получаю сообщение об ошибке «org.apache.poi

Lucky Singh Shekhawat / 02 апреля 2019

0 голосов

1 ответ

Как выполнить накопленное среднее значение для нескольких компаний, использующих искру, на основе результатов, сохраненных в Cassandra?

Мне нужно получить среднее значение и количество для данного кадра данных, а также получить ранее...

Shyam / 02 апреля 2019

1 голос

2 ответов

Коррелированная скалярная переменная должна быть агрегирована для скалярного подзапроса в искре

У меня есть Dataset<Row>, который содержит шесть столбцов, как показано ниже:...

Vicky / 02 апреля 2019

1 голос

0 ответов

Как включить нули в Json - при преобразовании фрейма данных в JSON в Spark

Как получить нулевые значения в json после преобразования Dataframe в строку Json в spark Я пытался...

ashish sharma / 02 апреля 2019

0 голосов

0 ответов

После кеширования перераспределения Dataframe занимает больше места, чем кеширует перед перераспределением

Я работал с 7 исполнителем, я сделал persist(StorageLevel.MEMORY_ONLY_SER). Когда я смотрел на...

Stifler / 02 апреля 2019

0 голосов

0 ответов

я должен закрыть файловую систему HDFS?

Моя искровая работа: def saveCount(spark: SparkSession, cnt: Long): Unit = { val fs = FileSystem

BAE / 02 апреля 2019

0 голосов

2 ответов

Apache Spark, диапазон соединений, перекос данных и производительность

У меня есть следующий предикат соединения Apache Spark SQL: t1.field1 = t2.field1 and t2.start_date...

alexanoid / 01 апреля 2019

1 голос

2 ответов

Как загрузить несколько CSV-файлов с перемешанными столбцами?

У меня есть несколько CSV-файлов, которые я хочу загрузить в таблицу кустов, моя проблема в том,...

Faizan Mohammad / 01 апреля 2019

2 голосов

0 ответов

Авторизационный искровой кластер

Я работаю над настройкой компьютеров EC2 с автономным кластером Spark, Hive, Apache Ranger.Улей...

Marsi / 01 апреля 2019

2 голосов

1 ответ

Как добавить коллекцию как новый столбец в DataFrame с большим количеством столбцов?

Я хотел бы добавить (добавить) новый столбец к существующему фрейму данных с несколькими столбцами....

Sankar / 01 апреля 2019

2 голосов

1 ответ

В Spark 2.4 Разве Spark JDBC не позволяет указывать встроенную функцию как partitionColumn?

Я пытаюсь изменить версию spark 2.2.1 на 2.4.0 В спарке 2.2, после работало нормально. val query =...

Hacking J / 31 марта 2019

0 голосов

1 ответ

Как я могу получить все имена массивов на Dataframe

Как я могу получить все имена массивов в Dataframe? Проблема в том, что я пытаюсь взорвать ВСЕ...

J-kram / 30 марта 2019