Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Умножение двух столбцов в фрейме данных pyspark.Один из них содержит вектор, а один из них содержит константу

У меня есть фрейм данных pyspark, в котором есть один столбец с векторными значениями и один...

Ashima Horra / 02 марта 2019

0 голосов

1 ответ

Получить значение конкретной ячейки в Spark Dataframe

У меня есть фрейм данных Spark, который имеет 1 строку и 3 столбца, а именно start_date, end_date,...

user1552698 / 02 марта 2019

0 голосов

1 ответ

Подсчет количества слов в группе по

У меня есть набор данных +----------+--------+------------+ | id| date| errors|...

HDev007 / 02 марта 2019

0 голосов

1 ответ

Ошибка неверного имени столбца в DSE Analytics Spark

У меня есть одна таблица, структура которой примерно такова -> CREATE TABLE keyspace_name

Chinmay R / 01 марта 2019

0 голосов

1 ответ

Apache Spark записывает на несколько выходов [разные схемы паркета] без кэширования

Я хочу преобразовать свои входные данные (файлы XML) и произвести 3 разных вывода. Каждый вывод...

PiotrW / 01 марта 2019

0 голосов

1 ответ

Создана вложенная структурная схема SPARK

Существующие столбцы DF: |-- col1: string (nullable = true) |-- col2: string (nullable = true) |--...

vikky / 01 марта 2019

0 голосов

1 ответ

Группировка нескольких столбцов без агрегации

У меня есть фрейм данных (Dataset<Row>), в котором шесть столбцов, из шести необходимо...

Vicky / 01 марта 2019

0 голосов

3 ответов

spark: как объединить строки в массив jsons

Ввод: id1 id2 name value epid "xxx" "yyy" "EAN"...

BAE / 01 марта 2019

0 голосов

1 ответ

импортировать данные со столбцом типа Pig Map в spark Dataframe?

Итак, я пытаюсь импортировать данные, в которых есть столбец типа Pig map, в фрейм данных spark, и...

Nesfe / 01 марта 2019

0 голосов

2 ответов

Обновление столбца в таблице Spark с использованием SQL

Я хотел бы добавить столбец в таблицу, а затем заполнить его значениями из другой таблицы.Ниже...

user554481 / 01 марта 2019

0 голосов

1 ответ

Spark: Как использовать собственный разделитель при записи данных в Kafka

При записи данных в kafka можно использовать столбец с именем key, который будет использоваться для...

lyl0o0o / 28 февраля 2019

0 голосов

0 ответов

Scala Spark: обработка данных в соединениях с посолкой

Мне нравится писать функцию, которая обрабатывает перекос данных при объединении двух наборов...

Ashkan / 28 февраля 2019

0 голосов

0 ответов

Spark Streaming с предопределенным порядком

У меня есть два потоковых фрейма данных - firstDataFrame и secondDataframe.Я хочу, чтобы поток...

riteshkasat / 28 февраля 2019

0 голосов

0 ответов

Pyspark - Unvectorize фрейм данных

Это для Pyspark .Я новичок в этом пространстве, поэтому, пожалуйста, потерпите меня. Чтобы...

Anonymous Person / 28 февраля 2019

0 голосов

1 ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

В pyspark , предположим, у меня есть фрейм данных со столбцами с именем 'a1'...

Xinyu Zhou / 28 февраля 2019

0 голосов

1 ответ

Конкатат нескольких столбцов данных с использованием pyspark

Предположим, у меня есть список столбцов, например: col_list = ['col1','col2']...

Amita Rawat / 28 февраля 2019

0 голосов

3 ответов

Создайте столбец искровых данных из пользовательской функции

Это должно быть тривиально - но я что-то упускаю: import org.apache.spark.sql._ import org.apache

javadba / 28 февраля 2019

0 голосов

1 ответ

Получение ошибки в Spark SQL, хотя он может распечатать SQL и может работать через Hive

Я могу напечатать SQL, и он может работать через Hive, но я получаю ошибку в Spark SQL. Exception...

Archer / 28 февраля 2019

0 голосов

1 ответ

разбить столбец строки на знак плюс (+) в искре и обрезать результат

Я хочу создать столбец на основе значения существующего столбца.Везде, где есть знак плюс, мы хотим...

Koushik Chandra / 28 февраля 2019

0 голосов

0 ответов

Искра нехватки памяти

Я бегу из своей искровой работы, где у меня есть два набора данных, и я присоединяюсь к ним на...

Sumit Gulati / 28 февраля 2019

0 голосов

1 ответ

вычислить несколько кадров данных параллельно с искрой

Я хотел бы использовать свойство параллелизации spark для параллельного вычисления нескольких...

SimbaPK / 28 февраля 2019

0 голосов

2 ответов

Как получить строки, где поле содержит (), []% или +.используя функцию rlike SparkSQL

Допустим, у вас есть фрейм данных Spark с несколькими столбцами, и вы хотите вернуть строки, в...

datapug / 27 февраля 2019

0 голосов

1 ответ

Как рассчитать среднее значение за 5 дней, среднее за 10 дней и среднее за 15 дней для данных?

Сценарий: У меня есть следующий кадр данных, как показано ниже ``` --...

Shyam / 27 февраля 2019

0 голосов

0 ответов

Как искровой структурированный поток знает, когда прекратить чтение данных?

Мы развернули программу потоковой структурированной потоковой передачи, которая считывает данные из...

Reza / 27 февраля 2019

0 голосов

1 ответ

Spark Sql для чтения из секционированной таблицы Hive orc, выдающей массив из связанной исключительной ситуации

Я создал таблицу ORC в Hive с разделами. Данные загружаются в HDFS с использованием Apache pig в...

Amrutha K / 27 февраля 2019