Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Spark2.3 - извлечение SQL до и более поздних записей строки

У меня около 2 миллионов записей, мне нужно получить 2000 записей на основе условия поиска текста....

kumar / 14 мая 2018

0 голосов

1 ответ

Spark SQL - параметры для развертывания SQL-запросов в Spark Streams

Я новичок в Spark и хотел бы выполнить SQL-запрос Spark по потокам Spark. В настоящее время я...

Jacko / 14 мая 2018

0 голосов

1 ответ

Как передать столбцы в качестве значения в UDF в Spark Scala для проверки состояния

Вот мой фрейм данных uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId...

Shailendra / 14 мая 2018

0 голосов

1 ответ

Сравнение значений столбца метки времени Spark

Пример данных Я хочу отфильтровать строки, у которых date_time_begin меньше даты начала, и я...

vijayaragavan / 14 мая 2018

0 голосов

1 ответ

Как указать столбец с не алфавитно-цифровыми символами в спарк SQL

DataStax Enterprise Graph включает столбец ~label, с которым нам нужно работать: вот конкретный...

javadba / 14 мая 2018

0 голосов

0 ответов

Локальное подключение Python к Spark-SQL на удаленном сервере

Можно ли как-нибудь написать запрос на python моего локального компьютера, выполнить его на...

JYWQ / 14 мая 2018

0 голосов

1 ответ

Создание Spark Row из строки CSV

Я новичок в Spark (использую Scala), пробую несколько вещей в преобразовании RDD в DF и т. Д. У...

D V N / 14 мая 2018

0 голосов

0 ответов

Изменение часового пояса при записи поля метки времени из Spark SQL в Hive

Мой фрейм данных Spark имеет несколько полей меток времени с часовым поясом UTC: 2010-06-06...

michelle / 14 мая 2018

0 голосов

2 ответов

Выбор максимального количества столбца с группой по в спарк SQL

У меня есть следующие данные: yr char cnt 1 a 27 1 g 20 3 b 50 3 z 70 Мне нравится получать год,...

NEO / 13 мая 2018

0 голосов

1 ответ

Создать DataFrame из класса case

Я прочитал другие связанные вопросы, но не нашел ответа. Я хочу создать DataFrame из класса...

John Hass / 13 мая 2018

0 голосов

1 ответ

Spark Scala: Как обновить каждый столбец DataFrame в соответствии с каждой позицией вектора

У меня есть DF, как это: +--------------------+-----+--------------------+ | col_0|col_1| col_2|...

diens / 13 мая 2018

0 голосов

0 ответов

Как создать идентификатор, который связывает строки на основе нескольких полей

У меня есть требование создать GROUP_ID на основе информации, представленной в двух других полях

mnk / 12 мая 2018

0 голосов

1 ответ

Применение условного усеченного среднего в скале

Я пытаюсь достичь 80% усеченного значения для каждой группы в скале, чтобы избавиться от выбросов....

ds_user / 12 мая 2018

0 голосов

1 ответ

Оконная функция с partitionBy для фрейма данных Spark не работает

Вот мой фрейм данных 1.Я отфильтровываю последние данные на основе отметки времени на...

Atharv Thakur / 12 мая 2018

0 голосов

1 ответ

При написании набора данных с использованием Spark, как изменить имена столбцов в верблюжьей оболочке в нижний регистр с подчеркиванием?

Я использую структурированную потоковую передачу в Spark 2.3.0 для записи набора данных в S3.Мой...

Harshit Sharma / 12 мая 2018

0 голосов

1 ответ

Создание правильной схемы для потокового RDD

Я работаю с dstream из kafka, который выглядит как запись ниже. Я изо всех сил пытался получить...

fast-ta / 12 мая 2018

0 голосов

0 ответов

Spark Scala с добавлением весов и расчетом для столбца

У меня есть датафрейм с датой, счетом, оценкой, жанром и просматриваемыми столбцами. Я пытаюсь...

Masterbuilder / 12 мая 2018

0 голосов

1 ответ

Сохранение порядка данных в HDFS

Входные данные: key,date,value 10,20180701,a10 11,20180702,a11 12,20180702,a12 13,20180702,a13 14...

sairam chowdary / 12 мая 2018

0 голосов

1 ответ

Spark - невозможно сохранить фрейм данных на диск

Я запускаю Spark в автономном режиме с каталогом Hive.Я пытаюсь загрузить данные из внешнего...

kirylm / 12 мая 2018

0 голосов

0 ответов

Pyspark inferSchema номера, которые начинаются с 0

Я использую pyspark (Spark 2.1.1), чтобы вывести схему файла csv: sc.read.csv('/some/file

user3124181 / 11 мая 2018

0 голосов

1 ответ

Пользовательская функция SparkSQL в предложении when

У меня есть DataFrame, подобный этому: id val1 val2 ------------ 1 v11 v12 2 v21 v22 3 v31 v32 4...

user3685285 / 11 мая 2018

0 голосов

0 ответов

Spark SQL возвращает ноль для столбца в таблице HIVE, а запрос HIVE возвращает ненулевые значения

У меня есть таблица кустов, созданная поверх s3 DATA в формате паркета и разделенная на один...

user2221654 / 11 мая 2018

0 голосов

1 ответ

Сумма SparkSQL, если на нескольких условиях

У меня есть SparkSQL DataFrame, подобный этому: name gender age isActive points...

user3685285 / 11 мая 2018

0 голосов

2 ответов

Scala DataFrame доступ к элементу WrappedArray в массиве

Я новичок в scala и несколько часов бьюсь над итерацией этого массива WrappedArray в массиве и...

Daniel / 11 мая 2018

0 голосов

0 ответов

Искра на Кубернетес, внезапно грохот стручков

Ниже тестируемый сценарий, Работа: Задание Spark SQK написано на Scala и выполняется на 1 ТБ ДАННЫХ...

kaushik H S / 11 мая 2018