Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Groupby и UDF / UDAF в PySpark при сохранении структуры DataFrame

Я новичок в PySpark и борюсь с простыми манипуляциями с кадрами.У меня есть датафрейм, похожий на:...

LucyB / 28 октября 2018

0 голосов

5 ответов

Используя Spark 2.3.1 с Scala, уменьшите произвольный список диапазонов дат в отдельные непересекающиеся диапазоны дат

Учитывая список диапазонов дат, некоторые из которых перекрываются: val df = Seq( ("Mike"...

Jeremy / 28 октября 2018

0 голосов

0 ответов

Spark StackOverFlowError с функцией Different () и объединением

Я выполняю следующие операции: DataSet<Row> df1 = spark.read().format(AVRO_MODE).load(path1);...

Kans / 27 октября 2018

0 голосов

1 ответ

Создание нового столбца из другого столбца в Apache Spark с использованием UDF

Я пытаюсь создать новый столбец из другого столбца в Apache Spark. Данные (сильно сокращенно)...

con / 26 октября 2018

0 голосов

2 ответов

Apache Spark 2.3.1 с метастарком Hive 3.1.0

Мы обновили кластер HDP до 3.1.1.3.0.1.0-187 и обнаружили: У улья новое местоположение метастаза...

Eugene Lopatkin / 26 октября 2018

0 голосов

1 ответ

Spark DataFrame RangePartitioner

[New to Spark] Язык - Scala В соответствии с документами RangePartitioner сортирует и разделяет...

Vijayant / 26 октября 2018

0 голосов

2 ответов

Spark Scala: приведение типа структуры к строке

Я читаю JSON как: val df = spark.read.json(rdd) Я читаю сообщения из разных тем, поэтому не могу...

Igorock / 26 октября 2018

0 голосов

1 ответ

Коррелированный столбец подзапроса в SPARK SQL не допускается как часть предиката неравенства

Я пытаюсь написать подзапрос в предложении where, как показано ниже.Но я получаю "Коррелированный...

vignesh asokan / 26 октября 2018

0 голосов

1 ответ

Как обновить статический фрейм данных с помощью потокового фрейма данных в структурированной потоковой передаче Spark

У меня есть Static DataFrame с миллионами строк следующим образом. Static DataFrame: --------------...

Swarup / 26 октября 2018

0 голосов

2 ответов

спарк-выражение переименовать список столбцов после агрегации

Я написал ниже код для группировки и объединения столбцов val gmList = List("gc1"...

user3607698 / 26 октября 2018

0 голосов

0 ответов

Сводка на основе группировки и сохранения всех других столбцов

У меня есть один фрейм данных, который имеет много столбцов почти 100 плюс (как показано ниже),...

user3607698 / 26 октября 2018

0 голосов

0 ответов

Каковы общие функции даты между SQL и Spark SQL?

Функции SQL и Spark SQL различны.Я хотел посмотреть, есть ли общий способ тестирования по месяцам и...

John Doe / 26 октября 2018

0 голосов

1 ответ

Spark применяет пользовательскую схему к DataFrame

У меня есть данные в файле Parquet и я хочу применить к нему пользовательскую схему. Мои исходные...

rajcool111 / 26 октября 2018

0 голосов

1 ответ

Escape-кавычки не работают в спарк 2.2.0 при чтении CSV

Я пытаюсь прочитать файл с разделителями, разделенный табуляцией, но не могу прочитать все записи....

prianshu / 25 октября 2018

0 голосов

1 ответ

Обработка преобразования строки в массив в фрейме данных pyspark

У меня есть файл (csv), который при чтении в искровом фрейме данных имеет следующие значения для...

kunal / 25 октября 2018

0 голосов

2 ответов

Накопительный продукт в Spark?

Я пытаюсь внедрить накопительный продукт в Spark Scala, но я действительно не знаю, как это сделать

Marc Lamberti / 25 октября 2018

0 голосов

1 ответ

рассчитать каждую строку на основе другой таблицы искры sql

У меня есть требование, где мне нужно вычислить столбец в моем фрейме данных.Для каждой строки...

vignesh asokan / 25 октября 2018

0 голосов

1 ответ

Spark: сохранение пары RDD в качестве режима добавления в той же выходной папке

Я пишу свой искровой вывод, как показано ниже pairedRDD.partitionBy(new...

Atharv Thakur / 25 октября 2018

0 голосов

0 ответов

ошибка чтения числа спарк-столбцов таблицы улья,

Когда я использую таблицу кустов чтения командной строки spark-sql для вычисления отчета, я получаю...

bingxian liu / 25 октября 2018

0 голосов

0 ответов

Дата карты PySpark Map в простом файле считывается, чтобы извлечь год-неделю

У меня есть текстовый файл, который я хотел бы прочитать в Spark SQL на Python.Он содержит столбец...

Daniel / 25 октября 2018

0 голосов

1 ответ

Найти строки с большой разницей во времени и скопировать эти строки в новый столбец

У меня есть файл json, как показано ниже: {"ts": "01/03/2018 15:48:09+0530",...

user3607698 / 25 октября 2018

0 голосов

1 ответ

Преобразование 2D матрицы - Dataframe в плоскую таблицу в PySpark

У меня есть фрейм данных PySpark, который выглядит следующим образом: id header1 header2 header3 ..

gacharya / 25 октября 2018

0 голосов

0 ответов

spark xml: нужен тип структуры, но есть строка;

У меня есть папка, которая состоит из файлов XML, и мы предполагаем, что эти файлы имеют одинаковую...

Alex S / 24 октября 2018

0 голосов

2 ответов

получить первые N элементов из столбца данных ArrayType в pyspark

У меня есть искровой фрейм данных со строками в виде - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]...

Vipul Sharma / 24 октября 2018

0 голосов

1 ответ

Вставить в TempView с помощью Spark.sql

Как мне сделать простую вставку в Spark SQL?spark 2.1 Я могу заставить его работать с простым...

Enrique Benito Casado / 24 октября 2018