Вопросы с тегом апаш-искра

0 голосов

1 ответ

Как перераспределить данные Spark в зависимости от количества строк?

Я написал простую программу, которая запрашивает огромную базу данных.Чтобы экспортировать мой...

salamanka44 / 21 января 2019

0 голосов

1 ответ

разбиение столбца словаря на несколько столбцов в pyspark

Column Names Production_uint_id,batch_id,items_produced,items_discarded Data: P188 gv962...

vishal kumar / 21 января 2019

0 голосов

1 ответ

Как оптимизировать обработку файлов S3 Spark Job в Hive Parquet Table

Я новичок в распределенной разработке Spark.Я пытаюсь оптимизировать существующее задание Spark,...

codeshark / 21 января 2019

0 голосов

2 ответов

Как сжать два столбца массива в Spark SQL

У меня есть датафрейм Pandas. Я попытался сначала объединить два столбца, содержащих строковые...

Falconic / 21 января 2019

0 голосов

2 ответов

Spark-shell: количество столбцов не совпадает

У меня есть файл формата csv, и он разделен символом разделителя "|".И набор данных имеет 2 столбца...

Arpan / 21 января 2019

0 голосов

0 ответов

ORC пишет намного медленнее, чем Parquet в Spark SQL

У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит тип данных...

user1058122 / 20 января 2019

0 голосов

1 ответ

Apache Spark не может десериализовать `TopicPartition` на кластере

Я использовал spark-sql-kafka-0-10 для чтения партии из Кафки с Spark 2.4 и scala 2.11.12.Таким...

Moein Hosseini / 20 января 2019

0 голосов

0 ответов

Как я могу использовать функцию «spark.catalog.createTable» для создания многораздельной таблицы?

https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.catalog.Catalog...

Guy Cohen / 20 января 2019

0 голосов

2 ответов

Класс случая массива карт Scala

У меня есть опыт работы с Python и я просто изучаю scala. Я хочу объявить класс case для данных,...

DevEx / 20 января 2019

0 голосов

0 ответов

Как читать архив tar.gz из корзины s3, используя Spark Structured Streaming 2.2?

Архив содержит простые текстовые файлы, но когда я читаю архив с s3 через: val streamDF = spark

Oleksandr Marchenko / 20 января 2019

0 голосов

1 ответ

Как мне написать CSV-файл, взяв таблицу Кассандры в качестве входных данных, используя Spark?

Если масштаб данных огромен и постоянно растет, как мне записать данные в файл CSV из таблицы...

aviral sanjay / 20 января 2019

0 голосов

0 ответов

Запись отсортированного фрейма данных в тему kafka (строки отсортированного порядка) в структурированной потоковой передаче с использованием scala

при отображении результатов сортировки в консоли результаты отображаются в порядке сортировки, как...

ParuchuriM / 20 января 2019

0 голосов

1 ответ

Как мы можем сравнить два фрейма данных в spark scala, чтобы найти разницу между этими двумя файлами, какой столбец ??а стоимость?

У меня есть два файла, и я создал из них два кадра данных prod1 и prod2. Мне нужно найти записи с...

SHAMPA PRAMANIK / 20 января 2019

0 голосов

1 ответ

DataFrame и DataSet - преобразование значений в пару <k, v>

Пример ввода (черный текст) и Вывод (красный текст) У меня есть DataFrame (один в черном), как я...

Sarfaraz Hussain / 20 января 2019

0 голосов

1 ответ

Есть ли встроенная Spark, которая выравнивает вложенные массивы?

У меня есть поле DataFrame, которое является Seq[Seq[String]] Я построил UDF для преобразования...

kingledion / 19 января 2019

0 голосов

0 ответов

не могу остановить предварительную загрузку сообщений kafka потребителю

Я использую API-интерфейс kafka spark Direct, чтобы использовать тему кафки.Когда нагрузка высока,...

JasonSteve / 19 января 2019

0 голосов

1 ответ

Объединение дубликатов столбцов в seq json hdfs файлах в spark

Я читаю файл seq json из HDFS, используя искру, как это: val data = spark.read.json(spark

GothamGirl / 19 января 2019

0 голосов

2 ответов

Как проверить количество разделов в Spark DataFrame, не неся стоимости .rdd

Существует ряд вопросов о том, как получить количество разделов для RDD и / или DataFrame: ответы...

javadba / 19 января 2019

0 голосов

1 ответ

Как исправить пустой вывод для кода textfilestream

object abc { def main(args: Array[String]) = { m() } def m() { val spark = SparkSession.builder

baidya s / 19 января 2019

0 голосов

2 ответов

Spark SQL фильтр нескольких похожих полей

Есть ли лучший способ написать фильтр из нескольких условий, которые похожи по своей природе на...

Vikas J / 19 января 2019

0 голосов

3 ответов

В искре переберите каждый столбец и найдите максимальную длину

Я новичок в разжигании скалы, и у меня следующая ситуация У меня есть таблица "TEST_TABLE" на...

A8H1 / 19 января 2019

0 голосов

1 ответ

Как поменять "аранжировать" в sparklyr?

Вот мой пример my_df <- data.frame(letters_col = sample(letters, 50, replace = TRUE),...

Mouad_S / 18 января 2019

0 голосов

0 ответов

Видимость таблиц Spark в нескольких скриптах Python

Я использую Spark 2.4.0 в кластере AWS. Целью является ETL, и он в значительной степени основан на...

dagspark / 18 января 2019

0 голосов

0 ответов

Как команды println в контейнерах spark возвращаются в консоль на master?

Вот эскиз некоторого кода Scala 2.10 / Spark 1.6.3, который я запускаю: def processText(df:...

kingledion / 18 января 2019

0 голосов

1 ответ

Несоответствие типов в Scala при работе с картой

Я пытаюсь выполнить операцию отображения на Spark DStream в приведенном ниже коде: val...

Evan / 18 января 2019