Вопросы с тегом апаш-искровой SQL

0 голосов

3 ответов

Как динамически генерировать наборы данных на основе схемы?

У меня есть несколько схем, как показано ниже, с разными именами столбцов и типами данных.Я хочу...

user3190018 / 30 ноября 2018

0 голосов

1 ответ

Добавление пользовательского столбца в фрейм данных pyspark с использованием udf передавая столбцы в качестве аргумента

У меня есть искровой фрейм данных с двумя столбцами, и я пытаюсь добавить новый столбец, ссылаясь...

dg S / 30 ноября 2018

0 голосов

1 ответ

Искра создать Dataframe в UDF

У меня есть пример, я хочу создать Dataframe в UDF.Нечто похожее на приведенное ниже import org

xuguozheng / 30 ноября 2018

0 голосов

1 ответ

Вывод записи Spark как фиксированная ширина

Чтение файла фиксированной ширины в Spark легко, и для этого есть несколько способов.Однако я не...

Naren / 30 ноября 2018

0 голосов

1 ответ

Как использовать приблизительно количество по группе?

Spark имеет функцию SQL percentile_approx(), а его аналог Scala равен df.stat.approxQuantile()....

Dzmitry Lazerka / 30 ноября 2018

0 голосов

1 ответ

После прочтения многострочного файла JSON в Apache Spark, как получить вложенные атрибуты в виде столбцов?

Я использую Spark 2.3.2 и читаю многострочный файл JSON.Это вывод df.printSchema(): root |-- data:...

ScalaBoy / 30 ноября 2018

0 голосов

1 ответ

Сбой Apache Spark при выборе определенных столбцов из вложенного JSON

Я пытаюсь прочитать данные JSON и явно указываю схему для данных.Но я получаю исключение при...

Reddevil / 29 ноября 2018

0 голосов

2 ответов

Влияет ли размер файлов деталей на производительность Spark SQL?

Я пытаюсь запросить hdfs, в которых много файлов деталей (avro).Недавно мы внесли изменения, чтобы...

user3679686 / 29 ноября 2018

0 голосов

1 ответ

Spark - игнорирование поврежденных файлов

В процессе ETL, которым мы управляем, мы получаем иногда поврежденные файлы.Мы попробовали эту...

sylvinho81 / 29 ноября 2018

0 голосов

1 ответ

Pyspark создает DataFrame из строк / данных с различными столбцами

У меня есть данные / строки из нескольких пар ключ / значение с неизвестным количеством ключей -...

ghukill / 29 ноября 2018

0 голосов

0 ответов

Как сгруппировать различные диапазоны в новые категории столбцов Спарк SQL

Я использую spark sql 2.3.1 и извлекаю данные из схемы json следующим образом:...

Mak / 29 ноября 2018

0 голосов

1 ответ

Pyspark - from_unixtime не показывает правильную дату и время

Я хочу преобразовать столбец отметки времени, который содержит время эпохи, в дату и время...

Sun / 29 ноября 2018

0 голосов

0 ответов

Приложение Spark зависло и работает навсегда из-за сбоя исполнителя

У меня есть искровое задание на производстве, которое планируется запускать в режиме клиента каждый...

Ankur / 29 ноября 2018

0 голосов

2 ответов

Разница между загрузкой CSV-файла в RDD и Dataframe в спарк

Я не уверен, задан ли этот конкретный вопрос ранее или нет.может быть возможным дубликатом, но я не...

vikrant rana / 29 ноября 2018

0 голосов

1 ответ

Писпарк конвертировать комплекс Dataformat

чтение файла паркета с помощью spark df = spark.read.parquet("path_to_file") df.show(2)...

Tushar Kolhe / 29 ноября 2018

0 голосов

0 ответов

Должно ли количество выходных записей map () / mapPartition () совпадать с количеством входных записей?

Если у меня есть набор данных из 100 записей, разбитых на 10 разделов, и если я запускаю над ним...

Vikas Gite / 29 ноября 2018

0 голосов

1 ответ

как сохранить фрейм данных Pyspark в HBase

У меня есть код, который преобразует потоковые данные Pyspark в dataframe.Мне нужно сохранить этот...

ariun ariun / 29 ноября 2018

0 голосов

1 ответ

Лидерство и отставание в групповом режиме

Для каждого entity_id в наборе данных сигналов найдите item_id с самым старым и самым новым...

suresh c / 29 ноября 2018

0 голосов

1 ответ

Как сделать ленивую загрузку Apache Spark Dataframe подключенной к REST API

Я очень рад, что Spark позволяет мне установить JDBC-соединение с таблицей базы данных, а затем...

Ziggy Eunicien / 29 ноября 2018

0 голосов

1 ответ

Spark-SQL читает данные JSON медленно

Я пытаюсь использовать Spark-SQL для чтения и выбора данных из строки JSON. Вот что я сделал:...

Newman / 29 ноября 2018

0 голосов

1 ответ

Spark Java - конвертировать JSON из CSV на карту

У меня есть CSV-файл с ~ 30 столбцами, один из столбцов является строкой json.Что я хочу сделать,...

Joe / 28 ноября 2018

0 голосов

1 ответ

Pyspark конвертировать строки в JSON с нулями

Цель: Для кадра данных со схемой id:string Cold:string Medium:string Hot:string IsNull:string...

mikeyoung / 28 ноября 2018

0 голосов

0 ответов

Spark Только сгенерированный код оценки поддерживается

Я использую spark 2.3.1, и я получаю странную ошибку, о которой я не могу найти информацию или не...

MitakaJ9 / 28 ноября 2018

0 голосов

0 ответов

Spark Scala Преобразование большого RDD в Dataframe проблема производительности

У меня есть RDD выход (22 столбца, 10000 строк) разъема искрового Hbase, и я должен преобразовать...

SimbaPK / 28 ноября 2018

0 голосов

1 ответ

Писпарк |Преобразование СДР из ключа со списком значений> значений со списком ключей

В pyspark, как преобразовать входной RDD, где Каждый ключ имеет список значений , в выходной RDD,...

P-S / 28 ноября 2018