Вопросы с тегом апаш-искра

2 голосов

2 ответов

Spark структурированное потоковое приложение для чтения из нескольких тем Kafka

У меня есть приложение структурированного потокового вещания Spark (v2.3.2), которое нуждается в...

jammann / 01 мая 2019

2 голосов

0 ответов

Улучшение чтения и объединения нескольких наборов искровых данных в паркете

Мне нужно прочитать несколько наборов данных по 5 гигабайт каждый.Каждый каталог directoryPath...

Kedar Naik / 01 мая 2019

1 голос

1 ответ

Искровой локальный режим не является честью свойства spark.app.id

Мы попытались использовать локальный режим spark вместо кластерного режима, но в локальном режиме...

Rui Yang / 01 мая 2019

2 голосов

1 ответ

Как извлечь значения из строки kafka через spark при структурированной потоковой передаче?

Учитывая данные, которые я извлек из Kafka. Как извлечь из него значения с помощью сопоставления с...

Brian Yeh / 30 апреля 2019

1 голос

2 ответов

Объединение нескольких (любого числа) столбцов искривления DataFrame в один «|» исключенная строка

У меня есть DataFrame и список столбцов в виде строк, и мне нужно добавить столбец к исходному...

Jared DuPont / 30 апреля 2019

0 голосов

1 ответ

Пиши AVRO от spark-shell в Spark 2.4

Spark 2.4.0 на Java 1.8.0_161 (Scala 2.11.12) Команда запуска: spark-shell --jars=spark-avro_2.11-2

amza / 30 апреля 2019

0 голосов

1 ответ

Как исправить «Неподдерживаемый файл класса Major Major 55» при выполнении «org.apache.spark.sql.DataSet.collectAsList ()»

Я создаю приложение Java RESTAPI Spring Boot, которое использует spark для получения данных с...

frm / 30 апреля 2019

0 голосов

3 ответов

Разделить RDD [String] на RDD [кортежи]

Я новичок в Scala и RDD. Я использую Scala на Spark 2.4. У меня есть RDD [String] с такими...

maxime rosano / 30 апреля 2019

0 голосов

2 ответов

Искра избегать строительства RDD каждый раз

У меня есть данные в S3, я могу загрузить данные в S3, поскольку RDD применяет некоторые изменения,...

AbhiK / 30 апреля 2019

0 голосов

0 ответов

Оптимизация разделов Spark DataFrame

У меня есть дополнительные вопросы после этого поста: https://stackoverflow.com/a/39398750/5060792...

Clay / 30 апреля 2019

2 голосов

1 ответ

Spark 2.2 Join не удается с огромным набором данных

В настоящее время у меня возникают проблемы при попытке объединить (внутренний) огромный набор...

Ali / 30 апреля 2019

0 голосов

0 ответов

java.lang.IllegalStateException: Попытка получить доступ к сборщику мусора SPARK SQL

Я запускаю задание SPARK SQL в Yarn Cluster и сталкиваюсь с проблемой "java.lang

Gowtham SB / 30 апреля 2019

0 голосов

0 ответов

Должны ли мы сделать операцию repartition (), если я использую стратегию динамического выделения ресурсов для spark

Мы запускаем работу Spark в Dataproc.Некоторое время мало работ застревает и не завершается.Мы...

jyoti / 30 апреля 2019

0 голосов

0 ответов

Не удалось загрузить com.saprk.demo.Hive. java.lang.ClassNotFoundException: com.saprk.demo.Hive

пакет com.saprk.demo import org.apache.spark.sql.SparkSession object Hive { def main (args: Array...

vvr / 30 апреля 2019

1 голос

1 ответ

Недопустимая кодировка int при десериализации тем kafka avro в структурированной потоковой передаче

Я пытаюсь обработать потоковые avro-данные из kafka, используя структурированную потоковую...

Vicky / 30 апреля 2019

0 голосов

1 ответ

Печать сообщения отладки Kafka на задании PySpark

Есть ли способ напечатать сообщение отладки Kafka (я думаю о сообщениях журнала, которые похожи на...

Chris Wijaya / 30 апреля 2019

2 голосов

1 ответ

Spark Hbase: как преобразовать фрейм данных в Hbase org.apache.hadoop.hbase.client.Result

У меня есть метод Test, который принимает один аргумент, который является HBase Result org.apache

sravs / 30 апреля 2019

0 голосов

0 ответов

Spark - завиток в искровой карте ()

Можно ли выполнить команду curl в spark rdd map ()? resultRDD = valuesRDD.map (value => / * curl...

DK2 / 30 апреля 2019

1 голос

1 ответ

Будет ли S3 Select ускорять анализ Spark для файлов Parquet?

Вы можете использовать S3 Select с Spark на Amazon EMR и с Databricks , но только для файлов CSV и...

Powers / 30 апреля 2019

1 голос

1 ответ

Сбой spark.table с java.io.Exception: нет файловой системы для схемы: abfs

У нас есть пользовательский класс файловой системы, который является расширением hadoop.fs

venBigData / 30 апреля 2019

8 голосов

2 ответов

Уменьшает ли количество ядер-исполнителей меньше памяти-исполнителя?

Сбой в задании My Spark с ошибкой YARN Container killed by YARN for exceeding memory limits 10.0 GB...

Glide / 29 апреля 2019

0 голосов

0 ответов

сбой приложения spark, после успешного завершения maprecece

Я выполняю Spark Application в Hue Workflow (Oozie). (AWS EMR) Hadoop EMR 2.7.3 Hive 2.3.0 Hue 3.12

chamin / 29 апреля 2019

2 голосов

0 ответов

Spark настроен на чтение с самого раннего смещения - выдает ошибку при попытке потребителя смещения, более недоступного на Kafka

В настоящее время я выполняю задание на работу с Dataproc и получаю сообщения об ошибках, пытаясь...

Austin Weaver / 29 апреля 2019

0 голосов

1 ответ

Искра UDF - классная приемная с JSON

Я использую java-искровой код, считывающий некоторые данные json и преобразующий одно из полей в...

Dori Rabin / 29 апреля 2019

1 голос

1 ответ

java.lang.NoSuchMethodError: scala.Product. $ init $ (Lscala / Product;) V

Мой проект spark работает правильно (2.4.0), но когда я добавляю следующую зависимость:...

M. Merzouk / 29 апреля 2019