Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

Многократные вызовы pyspark window () показывают ошибку при выполнении groupBy ()

Этот вопрос является продолжением этого ответа .Spark отображает ошибку, когда возникает следующая...

funseiki / 21 января 2019

0 голосов

1 ответ

Spark: чтение файлов с PERMISSIVE и предоставленной схемой - проблемы со столбцом поврежденных записей

Я читаю искру CSV. Я предоставляю схему для файла, который я читаю, и я читаю его в разрешающем...

MitakaJ9 / 21 января 2019

0 голосов

1 ответ

Возникла проблема при использовании SparkUDF с несколькими аргументами

Я пытаюсь закодировать данные, используя SHA-256, передавая их в качестве аргумента в Spark UDF, но...

Kiran / 21 января 2019

0 голосов

3 ответов

Почему существует масса задач для загрузки файла CSV в корзину S3?

У меня есть небольшой автономный кластер spark с динамическим распределением ресурсов, который...

levi / 21 января 2019

0 голосов

2 ответов

SQL-запрос Apache Spark и DataFrame в качестве справочных данных

У меня есть два Spark DataFrames: cities DataFrame со следующим столбцом: city ----- London Austin...

alexanoid / 21 января 2019

0 голосов

2 ответов

Как преобразовать преобразование списка юникода, содержащегося в столбце pyspark, в фрейм-лист?

Я создал фрейм данных, как показано import ast from pyspark.sql.functions import udf values =...

Shilpa / 21 января 2019

0 голосов

1 ответ

Как перераспределить данные Spark в зависимости от количества строк?

Я написал простую программу, которая запрашивает огромную базу данных.Чтобы экспортировать мой...

salamanka44 / 21 января 2019

0 голосов

1 ответ

разбиение столбца словаря на несколько столбцов в pyspark

Column Names Production_uint_id,batch_id,items_produced,items_discarded Data: P188 gv962...

vishal kumar / 21 января 2019

0 голосов

1 ответ

Как оптимизировать обработку файлов S3 Spark Job в Hive Parquet Table

Я новичок в распределенной разработке Spark.Я пытаюсь оптимизировать существующее задание Spark,...

codeshark / 21 января 2019

0 голосов

2 ответов

Как сжать два столбца массива в Spark SQL

У меня есть датафрейм Pandas. Я попытался сначала объединить два столбца, содержащих строковые...

Falconic / 21 января 2019

0 голосов

2 ответов

Spark-shell: количество столбцов не совпадает

У меня есть файл формата csv, и он разделен символом разделителя "|".И набор данных имеет 2 столбца...

Arpan / 21 января 2019

0 голосов

0 ответов

ORC пишет намного медленнее, чем Parquet в Spark SQL

У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит тип данных...

user1058122 / 20 января 2019

0 голосов

1 ответ

Apache Spark не может десериализовать `TopicPartition` на кластере

Я использовал spark-sql-kafka-0-10 для чтения партии из Кафки с Spark 2.4 и scala 2.11.12.Таким...

Moein Hosseini / 20 января 2019

0 голосов

1 ответ

DataFrame и DataSet - преобразование значений в пару <k, v>

Пример ввода (черный текст) и Вывод (красный текст) У меня есть DataFrame (один в черном), как я...

Sarfaraz Hussain / 20 января 2019

0 голосов

1 ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть фрейм данных Spark с одним отсутствующим и одним неправильным значением. from pyspark

Jason / 20 января 2019

0 голосов

1 ответ

Есть ли встроенная Spark, которая выравнивает вложенные массивы?

У меня есть поле DataFrame, которое является Seq[Seq[String]] Я построил UDF для преобразования...

kingledion / 19 января 2019

0 голосов

1 ответ

Объединение дубликатов столбцов в seq json hdfs файлах в spark

Я читаю файл seq json из HDFS, используя искру, как это: val data = spark.read.json(spark

GothamGirl / 19 января 2019

0 голосов

1 ответ

UDF Python с несколькими аргументами

Задача состояла в том, чтобы вывести всех руководителей сотрудников на уровень выше в Spark....

San / 19 января 2019

0 голосов

2 ответов

Spark SQL фильтр нескольких похожих полей

Есть ли лучший способ написать фильтр из нескольких условий, которые похожи по своей природе на...

Vikas J / 19 января 2019

0 голосов

1 ответ

Как поменять "аранжировать" в sparklyr?

Вот мой пример my_df <- data.frame(letters_col = sample(letters, 50, replace = TRUE),...

Mouad_S / 18 января 2019

0 голосов

0 ответов

Видимость таблиц Spark в нескольких скриптах Python

Я использую Spark 2.4.0 в кластере AWS. Целью является ETL, и он в значительной степени основан на...

dagspark / 18 января 2019

0 голосов

2 ответов

читать файлы с текущей даты минус 90 дней в спарке

Я читаю все один за другим файлы, которые хранятся в структуре каталогов как YY=18/MM=12/DD=10 и...

Ravi Anand Vicky / 18 января 2019

0 голосов

1 ответ

Используйте лаг в spark sql в регистре

У меня есть таблица, как показано ниже Я хочу добавить столбец seq_group справа на основе значения...

Krishna Sangeeth K S / 18 января 2019

0 голосов

2 ответов

Как объединить два DataFrame с объединенными столбцами в Spark?

Я не понимаю, как я могу объединить 2 таких DataFrame друг с другом. Первый DataFrame хранит...

Nurzhan Nogerbek / 18 января 2019

0 голосов

2 ответов

Как рассчитать среднее значение в одной группе?

У меня есть такой фрейм данных: +-----+---------+---------+ |Categ| Amt| price|...

freefrog / 18 января 2019