Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Как получить данные второго фрейма данных для всех значений отдельных столбцов, значения которых совпадают в первом фрейме данных?

Имеют два кадра данных, как показано ниже first_df |-- company_id: string (nullable = true) |--...

Shyam / 05 апреля 2019

0 голосов

1 ответ

Как сравнить две таблицы и заменить нули значениями из другой таблицы

Я работаю над некоторым назначением, где у нас есть две таблицы с одинаковыми / разными столбцами....

Rateri / 05 апреля 2019

0 голосов

1 ответ

Как наилучшим образом преобразовать столбец SparkSQL Dataframe Array [String] в новый столбец [String]

Я новичок в Spark, и у меня есть Apache SparkSQL DataFrame df с 4 столбцами, имеющий следующую...

Pontus / 05 апреля 2019

1 голос

1 ответ

Сортировка таблиц улья после объединения в искру

Я запускаю искровую оболочку с искрой 2.3.1 со следующими параметрами:...

Kamrus / 05 апреля 2019

0 голосов

0 ответов

Не удалось подключиться к Hive из Spark-Sql

Я пытаюсь подключиться к Hive с помощью Spark-SQL, но не могу прочитать таблицы из улья. Версия...

vasanth sonu / 05 апреля 2019

1 голос

1 ответ

Есть ли способ подсчета ненулевых значений на строку в искровой df?

У меня очень широкий df с большим количеством столбцов.Мне нужно получить количество ненулевых...

NITS / 05 апреля 2019

1 голос

1 ответ

Spark Разница в перераспределении и spark.sql.shuffle.partition

Я запускаю программу зажигания с --conf spark.sql.shuffle.partitions=100 Внутри приложения у меня...

nnc / 05 апреля 2019

0 голосов

2 ответов

Ошибка чтения из обновляемого файла паркета

Наше приложение обрабатывает потоковые данные, которые записываются в файлы паркета. Время от...

JoeMjr2 / 05 апреля 2019

0 голосов

1 ответ

SparkSQL на Hive многораздельной внешней таблицы на Amazon S3

Я планирую использовать SparkSQL (не pySpark) поверх данных в Amazon S3.Поэтому я считаю, что мне...

Koushik De / 04 апреля 2019

0 голосов

1 ответ

Spark SQL: есть ли способ различать столбцы с одинаковыми именами?

У меня есть CSV с заголовком со столбцами с тем же именем. Я хочу обработать их с помощью spark,...

aglavina / 04 апреля 2019

0 голосов

1 ответ

Как конвертировать rdd в вложенный json в pyspark

Я новичок и у меня есть данные в следующем формате Категория, Подкатегория, Имя Food,Thai...

Roger Ganga Sundararaj / 04 апреля 2019

1 голос

2 ответов

Преобразовать строку даты в метку времени в pySpark

У меня есть столбец date в фрейме данных pySpark с датами в следующем формате: 2018-02-01T13:13:12

Gerasimos / 04 апреля 2019

0 голосов

0 ответов

Java Spark, Использование вложенного JSON для создания столбцов переупорядочения наборов данных

Я столкнулся с проблемой, когда мне нужно создать набор данных в Java Spark с использованием файла...

kelks / 04 апреля 2019

1 голос

1 ответ

Как отправить запрос DELETE на HBase через Spark Job

У меня есть этот вариант использования для автоматизированного задания SparkSQL, где я хочу сделать...

Jules L / 04 апреля 2019

0 голосов

1 ответ

искровое соединение, вызывающее ошибку неоднозначности идентификатора столбца

У меня есть следующие кадры данных: accumulated_results_df |-- company_id: string (nullable = true)...

Shyam / 04 апреля 2019

0 голосов

1 ответ

Конвертируйте тип данных cloumn из StringType в StructType в информационном кадре в искровом скале

| ID|CO_ID| DATA| +--------------------+--------------------+----+...

Mohammad Sunny / 04 апреля 2019

2 голосов

1 ответ

SQL-запрос без использования внутреннего соединения в нем

У меня есть набор данных spark sparkDSDS Dataset<Row>, как показано ниже...

Vicky / 04 апреля 2019

2 голосов

1 ответ

Ошибка сводки Spark DF: сводка метода ([класс java.lang.String, класс java.lang.String]) не существует

Я новичок в использовании фреймов данных Spark. Я пытаюсь использовать метод pivot со Spark (Spark...

NITS / 04 апреля 2019

0 голосов

0 ответов

Искра "распространяй" взрывает размер исходных данных

Я пытаюсь выяснить, почему мои 15 ГБ таблицы увеличиваются до 182 ГБ, когда я запускаю простой...

user554481 / 04 апреля 2019

0 голосов

0 ответов

настройка в памяти представления данных в искре (локальность данных)

У меня есть сценарий использования, в котором я бы предпочел, чтобы все подключенные данные (для...

Georg Heiler / 03 апреля 2019

1 голос

1 ответ

спарк scala создать столбец из Dataframe со значениями, зависящими от диапазона времени и даты

Я пытаюсь создать новый столбец из кадра данных, который, скажем, выглядит как...

Brian / 03 апреля 2019

7 голосов

2 ответов

Найти среднее значение массива pyspark <double>

В pyspark у меня есть массив переменной длины, для которого я хотел бы найти среднее значение

Aaron Faltesek / 03 апреля 2019

0 голосов

0 ответов

Совет должен был использовать движок Spark SQL для разбора SQL для пользовательской библиотеки

Я пишу библиотеку в Scala для локальной обработки данных.Я хотел бы включить некоторые из функций,...

Selnay / 03 апреля 2019

1 голос

1 ответ

Лучшая практика для дублирования каждого столбца на одном и том же фрейме данных

Я хочу взять DF и удвоить каждый столбец (с новым именем столбца). Я хочу провести «Стресс-тесты»...

Harelz / 03 апреля 2019

0 голосов

0 ответов

df.na.fill не работает, когда имена столбцов имеют специальные символы (символ. точка)

df.na.fill и df.na.replace не работают, если имя столбца имеет символ .. val df = List((1...

Saiprashanth Nandagiri / 03 апреля 2019