Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

инкрементное обновление с использованием spark sql с последней датой

ID транзакции | Сумма | Дата | КОММЕНТАРИЙ 1 | 200 | 14/11/18 | Доставлено 2 | 300 | 14/11/18 | В...

survya / 21 ноября 2018

0 голосов

1 ответ

Как объединить наборы данных со значениями между другими значениями?

У меня есть сценарий использования, где мне нужно объединить 2 фрейма данных. Представление...

Amaan Khan / 20 ноября 2018

0 голосов

1 ответ

Что означают префиксы чисел в операторе объяснения?

Что означают (1), (6) и (3) в следующем выводе explain.Версия Spark 2.3.1.

user10349797 / 20 ноября 2018

0 голосов

1 ответ

PYSPARK: объединить столбец таблицы с одним из двух столбцов из другой таблицы

Моя проблема заключается в следующем: Table 1 ID1 ID2 1 2 3 4 Table 2 C1 VALUE 1 London 4 Texas...

Alok / 20 ноября 2018

0 голосов

1 ответ

Применить формат даты при изменении типа данных

Я применяю тип данных для каждого column во фрейме данных, как показано ниже...

syv / 20 ноября 2018

0 голосов

1 ответ

Контрольный номер целевых файлов паркета

У меня ~ 250 папок.Каждая папка в день.Каждая папка содержит 24 паркетных файла.Мне нужно прочитать...

Amir H. / 20 ноября 2018

0 голосов

1 ответ

ИЛИ дает лучшую производительность, чем IN для запросов HIVE

У меня есть два следующих запроса в Hive, чтобы получить какой-то конкретный результат. select *...

Abinash Dash / 20 ноября 2018

0 голосов

1 ответ

PySpark - Как рассчитать минимальное, максимальное значение каждого поля с помощью Pyspark?

Я пытаюсь найти минимум, максимум каждого поля, полученного из оператора sql, и записать его в файл...

Shankar Panda / 20 ноября 2018

0 голосов

0 ответов

Отличный счетчик по столбцу в наборе данных в стриктурированном потоке

Я новичок в теме потоковой передачи.Таким образом, возникает проблема при расчете различного числа...

Darshan Manek / 20 ноября 2018

0 голосов

1 ответ

Рассчитать остаточное количество в столбце данных

У меня есть фрейм данных «емкость»: scala> sql("create table capacity (id String, capacity...

user811602 / 20 ноября 2018

0 голосов

0 ответов

парсинг файла csv с многострочными полями в pyspark

Возникла проблема при чтении файла test2.csv в pyspark. Тестовый файл test1.csv a1^b1^c1^d1^e1...

user10678179 / 20 ноября 2018

0 голосов

1 ответ

Необычный объем данных, извлекаемых в драйвер при вызове dataframe.collect в Spark

В моем искровом коде я собираю небольшой объект в драйвере из кадра данных.Я вижу следующее...

devj / 20 ноября 2018

0 голосов

1 ответ

Параметр Apache Spark to_json

Я либо не знаю, что я ищу, либо отсутствует документация. Последнее, кажется, имеет место, учитывая...

Tsar Bomba / 20 ноября 2018

0 голосов

0 ответов

Задать длину столбца в фрейме данных pyspark при использовании пользовательской схемы

Pyspark: Можно ли установить / изменить длину столбца кадра данных искры при записи DF в целевой...

Lucky / 19 ноября 2018

0 голосов

1 ответ

Как запустить скрипт hql используя spark sql?

У меня есть скрипт Hive Query, и я хотел запустить его в режиме командной строки в Unix. Есть ли...

Ajay Kharade / 19 ноября 2018

0 голосов

1 ответ

Readstream на Apache Spark с неверной схемой повторяет попытку 1830 раз

В структурированной потоковой передаче Spark, когда входящая запись из S3 не совпадает со схемой,...

Naveen Cotha / 19 ноября 2018

0 голосов

2 ответов

Экспорт конвейера преобразования искрового объекта в файл

PMML, Mleap, PFA в настоящее время поддерживают только преобразования на основе строк.Ни один из...

Gowrav / 19 ноября 2018

0 голосов

2 ответов

Неподдерживаемый литеральный тип класса scala.runtime.BoxedUnit

Я пытаюсь отфильтровать столбец данных, прочитанный из Oracle, как показано ниже import org.apache

Shyam / 19 ноября 2018

0 голосов

0 ответов

Tez VS Spark - огромные различия производительности

Я использую HDP 2.6.4 и вижу огромные различия в Spark SQL и Hive на TeZ.Вот простой запрос к...

hummingBird / 19 ноября 2018

0 голосов

2 ответов

Предикат Spark IN / EXISTS в операторе SELECT

У меня есть следующий тестовый запрос Spark SQL: Seq("france").toDF

alexanoid / 19 ноября 2018

0 голосов

1 ответ

Можно ли построить код на лету и выполнить?

Я пытаюсь создать универсальную функцию для чтения CSV-файла, используя базы данных CSV READER. Но...

William R / 19 ноября 2018

0 голосов

2 ответов

Apache Spark ML Pipeline: фильтрация пустых строк в наборе данных

В моем Spark ML Pipeline (Spark 2.3.0) я использую RegexTokenizer следующим образом: val...

Igorock / 19 ноября 2018

0 голосов

2 ответов

Как писать IN и NOT IN с использованием Apache Spark Dataframes

У меня ниже 2 примеров SQL-запросов в SQL: a) update DBTABLE1 set col1 = 'Yes' where ID...

Voila / 19 ноября 2018

0 голосов

2 ответов

Как посчитать количество пропущенных значений в каждом ряду фрейма данных -spark scala?

Я хочу посчитать количество пропущенных значений в каждой строке фрейма данных в режиме искры scala...

stack0114104 / 18 ноября 2018

0 голосов

1 ответ

Набор данных Spark <Row>Преобразование векторного столбца в массив

У меня есть столбец «особенности», который является вектором.Есть ли способ преобразовать этот...

Sam / 18 ноября 2018