Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

Сбой перераспределения фрейма данных pyspark и как избежать начального размера раздела

Я пытаюсь настроить производительность spark, используя разделение на кадре данных spark.Вот код:...

SarahData / 25 февраля 2019

0 голосов

1 ответ

Объединение двух наборов данных в Spark SQL (Java)

У меня есть 2 Dataset с 4 столбцами в каждом. Мои наборы данных: 'left': a | b | c | d 1...

JBoy / 25 февраля 2019

0 голосов

0 ответов

Рассматривает ли Spark SQL ограничение при объединении?

Я провел следующий эксперимент. Запрос 1: select f1, f2 from A where id = 10 limit 1 | f1 | f2 |...

Joe C / 25 февраля 2019

0 голосов

1 ответ

Подстрока Pyspark одного столбца на основе длины другого столбца

Использование Pyspark 2.2 У меня есть спарк DataFrame с несколькими столбцами.Мне нужно ввести 2...

Wynn / 25 февраля 2019

0 голосов

1 ответ

Как запустить запрос для каждой записи в кадре данных?

У меня есть сценарий, где нужно выполнить запрос для каждой записи из кадра данных.Я бегу в...

GKrish / 24 февраля 2019

0 голосов

1 ответ

Будут ли небольшие файлы распространяться по разделам в JavaPairRDD?

Это может быть глупый вопрос, но я не могу понять, как файлы распределяются по разделам.Мое...

Shashank V C / 24 февраля 2019

0 голосов

2 ответов

Производительность UNION против IN для ключа разделения в Кассандре

Допустим, у нас есть следующая таблица Кассандры: create table news( date text, source text,...

Moose on the Loose / 24 февраля 2019

0 голосов

1 ответ

План объяснения Spark SQL вызывает вычисление временной таблицы много раз

Я новичок в Spark SQL и использую объяснение, чтобы узнать, как он может оптимизировать код.Я...

Joe C / 24 февраля 2019

0 голосов

2 ответов

Spark SQL повторяет вычисление того же подзапроса при объединении

У меня есть объединение двух абсолютно одинаковых подзапросов.Однако, исходя из объяснения запроса,...

Joe C / 23 февраля 2019

0 голосов

1 ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла csv (миллионы строк) с одной и той же схемой со столбцом...

Faizal / 23 февраля 2019

0 голосов

2 ответов

Удалить строки, содержащие определенное значение в фрейме данных PySpark

У меня есть фрейм данных pyspark: ABC 1 NA 9 4 2 5 6 4 2 5 1 NA Я хочу удалить строки, содержащие...

jk1093 / 23 февраля 2019

0 голосов

0 ответов

Повторяющиеся записи появляются в реализации oaspark.sql.sources.v2.writer.DataWriter.writeRecord?

В настоящее время мы изучаем Apache Spark (с Hadoop) для выполнения крупномасштабного...

Steve C / 23 февраля 2019

0 голосов

0 ответов

Запись Spark Sql в файл паркета не заканчивается

Я запускаю пакетное задание Spark Sql и намеревался преобразовать дамп таблицы в файл (ы) паркета

Soman Chakraborty / 23 февраля 2019

0 голосов

2 ответов

Как явные разделы таблиц в Databricks влияют на производительность записи?

У нас есть следующий сценарий: У нас есть существующая таблица, содержащая ок.15 миллиардов записей

Jesse Amano / 23 февраля 2019

0 голосов

0 ответов

Чтение данных по кластерам в Apache Spark

У меня есть огромная таблица, которую я загружаю из RedShift в csv-файл на S3, используя блокнот...

user1552698 / 23 февраля 2019

0 голосов

1 ответ

Spark to_date генерирует странный 5-значный год

Я выполнил следующее предложение выбора для таблицы HIVE в редакторе HUE и получил результат ниже....

F. Aydemir / 23 февраля 2019

0 голосов

0 ответов

apache spark: связь между размером случайного чтения и случайным разливом (памятью)?

Я уже погуглил и знал, что случайный разлив (память) - это размер десериализованной формы данных в...

Alan Li / 23 февраля 2019

0 голосов

2 ответов

dataframe.select, выберите столбцы dataframe из файла

Я пытаюсь создать дочерний фрейм данных из родительского фрейма данных.но у меня есть более 100...

user2232840 / 22 февраля 2019

0 голосов

0 ответов

Как отладить и настроить приложение Spark 2.0+ из веб-интерфейса?

Мое искровое приложение уже давно запущено. Сцена застряла в 199/200, как показано на рисунке....

Alan Li / 22 февраля 2019

0 голосов

1 ответ

Разница между callUDF и udf.register в искре

У меня есть udf как часть импорта, и я использую его в своем искровом коде spark

Srinivas / 22 февраля 2019

0 голосов

1 ответ

Spark / Java: не сериализуемая проблема - сериализация Kryo

Чего мне не хватает в сериализации крио? Class1 и Class3 не являются сериализуемыми классами java...

RLM / 22 февраля 2019

0 голосов

0 ответов

искра посэксплоде не с колонкой

Как я могу использовать posexplode в искрах withColumn оператор? Seq(Array(1,2,3)).toDF

Georg Heiler / 22 февраля 2019

0 голосов

2 ответов

Как читать кадр данных построчно, не меняя порядок?в Spark Scala

У меня есть датафрейм, который содержит последовательность строк.Я хочу перебирать строки по...

Kuppu / 22 февраля 2019

0 голосов

1 ответ

Каков наилучший способ взаимодействия с Hbase с помощью Pyspark?

Я использую pyspark [spark2.3.1] и Hbase1.2.1, мне интересно, как лучше всего получить доступ к...

Chauhan B / 22 февраля 2019

0 голосов

1 ответ

Кирпичи данных Spark CREATE TABLE - это навсегда для 1 миллиона маленьких файлов XML

У меня есть набор 1 млн. XML-файлов, каждый из которых имеет размер ~ 14 КБ в хранилище...

Abhra Basak / 22 февраля 2019