Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Как передать каждое значение столбца Spark Dataframe в виде строки в UDF Python?

Я пытаюсь GPG зашифровать столбец данных в искровом фрейме FName df = spark

Umi / 18 ноября 2018

0 голосов

0 ответов

параллельное соединение силы искры-sql

Я использую Spark-Sql для запроса таблиц Кассандры. В Cassandra я разделил свои данные с временным...

f.ald / 18 ноября 2018

0 голосов

1 ответ

Как включить многострочное чтение CSV-файла в pyspark

Я читаю файл CSV через PySpark. Это файл с разделителями кареткой. Имеет 5 столбцов. Мне нужно...

Sri / 18 ноября 2018

0 голосов

2 ответов

Spark Соедините один и тот же набор данных несколько раз в разных столбцах

У меня ниже двух наборов данных. code,name IN,India US,United States UK,United Kingdom SG,Singapore...

stacksr / 18 ноября 2018

0 голосов

0 ответов

Объединить массив объектов в pyspark

Рассмотрим следующий DF: df = spark.createDataFrame( [ Row( x='a', y=[ {'f1': 1...

gr8one / 17 ноября 2018

0 голосов

0 ответов

Pyspark .partitionBy (). Parquet () не сохраняет файлы

Я сейчас работаю в Azure Databricks. У меня есть один консолидированный спарк-фрейм с такими...

Grevioos / 17 ноября 2018

0 голосов

1 ответ

Как предотвратить добавление обратной косой черты в строку JSON в dataframe с помощью spark sql с помощью kafka

По какой-то причине, когда я выполняю код .wriestream.format (json) .option (Path). У меня есть...

Mak / 17 ноября 2018

0 голосов

1 ответ

Apache Spark: Кафка напишу в произвольном формате

Я создаю приложение Spark SQL, которое использует тему Kafka, преобразует некоторые данные, а затем...

Tsar Bomba / 17 ноября 2018

0 голосов

0 ответов

информация о работе магазина в базе данных

У меня есть искровое задание, которое будет периодически отправляться для выполнения какой-либо...

palla chat / 17 ноября 2018

0 голосов

0 ответов

Извлечь элемент из вложенного JSON

Существует структура JSON с форматом ниже.Как извлечь поля col1 и col2. root |-- F1: array...

Mohan / 16 ноября 2018

0 голосов

2 ответов

Spark загружает коллекцию файлов в пакетном режиме и находит строку из каждого файла с дополнительной информацией от уровня файла

У меня есть коллекция файлов, указанная через запятую, например:...

alexanoid / 16 ноября 2018

0 голосов

1 ответ

Как справиться с противодавлением в базах данных при использовании Apache Spark?

Мы используем Apache Spark для выполнения ETL каждые 2 часа. Иногда Spark оказывает большое...

Gowthaman V / 16 ноября 2018

0 голосов

1 ответ

В чем разница между $ "Col1", "Col1" и "Col1" в Spark SQL?

Я сейчас ссылаюсь на Spark в книге действий, в которой я сталкивался с использованием одного и того...

user2815076 / 16 ноября 2018

0 голосов

4 ответов

Добавление нового столбца в первой порядковой позиции в фрейме данных pyspark

У меня есть фрейм данных Pyspark, как: +--------+-------+-------+ | col1 | col2 | col3 |...

PRASHANT KUMAR GUPTA / 16 ноября 2018

0 голосов

1 ответ

Слишком много открытых файлов в искровой работе с искрой

В моем приложении я читаю 40 ГБ текстовых файлов, которые полностью распределены по 188 файлам. Я...

SUDARSHAN / 16 ноября 2018

0 голосов

0 ответов

Повторное использование RDD со временем потребляет всю оперативную память

У меня есть приложение, которое использует около 20 RDD для выполнения необходимых вычислений.Можно...

Dusan Vasiljevic / 16 ноября 2018

0 голосов

0 ответов

Zeppelin - Spark SQL не может проанализировать ввод 'IN' в запросе

Я пытаюсь выполнить запрос, использующий Spark SQL, из блокнота Zeppelin, подключенного к AWS Glue....

Spandan Brahmbhatt / 16 ноября 2018

0 голосов

1 ответ

первая функция в Spark при использовании pivot

Я не уверен, почему первое ("traitvalue") в запросе кадра выходных данных работает ниже. Что...

pradeep aru / 15 ноября 2018

0 голосов

1 ответ

Невозможно создать иерархический rowTag при преобразовании Dataframe в XML с использованием pyspark

Я использую pyspark для преобразования данных в xml-файл.Ниже приведен мой примерный фрейм данных...

Nabarun Chakraborti / 15 ноября 2018

0 голосов

1 ответ

Как избежать необходимости вложенных вызовов в кадры данных Spark - которые не работают

Предположим, у меня есть фрейм данных Spark с именем trades, который имеет в своей схеме несколько...

Simone Colucci / 15 ноября 2018

0 голосов

0 ответов

Процентное число CountDistinct в кадре данных Spark - Scala

Моя проблема в этом.У меня есть пользовательский фрейм данных, созданный из записей netflow,...

Matěj Nemec / 15 ноября 2018

0 голосов

1 ответ

PySpark сумма последних значений по ID в окне временных рядов

У меня есть этот DataFrame в PySpark: [Row(id='487', value=35185, time=datetime

Doman / 15 ноября 2018

0 голосов

0 ответов

Spark SQL и Spark Dataframe объединяются - чтение из таблицы улья, созданной в Parquet

Есть два стола Hive. Обе эти таблицы используют формат файла Parquet. Таблица A - с 5 столбцами...

Hemant Gupta / 15 ноября 2018

0 голосов

1 ответ

Искра переопределить переменную dataframe без использования var

У меня есть один API, который выполняет операцию удаления на фрейме данных, как показано ниже def...

user3607698 / 15 ноября 2018

0 голосов

2 ответов

Spark SQL Java GenericRowWithSchema не может быть приведен к java.lang.String

У меня есть приложение, которое пытается прочитать группу csv из директории кластера и записать их...

Pnutz / 15 ноября 2018