Вопросы с тегом апаш-искра

0 голосов

1 ответ

Scala, как отсортировать «Нет» в нижней части, если существует и выбрать первую строку в каждой группе?

Я группируюсь по первому элементу, что приводит к RDD[(String, Iterable[(String, String,...

nancy / 09 апреля 2019

0 голосов

0 ответов

Почему задание spark-submit оставляет процесс, работающий на главном узле кластера (EMR)?

Я отправляю задание зажигания в Livy с помощью лямбда-функции AWS.Задание выполняется до конца...

Kieran Taylor / 09 апреля 2019

0 голосов

1 ответ

Чтение из нескольких блоков s3 в одном регионе с помощью Spark

Я пытаюсь прочитать файлы из нескольких блоков s3. Первоначально ведра были бы в разных регионах,...

User24061990 / 09 апреля 2019

0 голосов

0 ответов

Необходимо выполнить Woo Oozie в Hue / AWS EMR, который вызывает сценарий оболочки, а сценарий оболочки, в свою очередь, вызывает spark-submit для запуска задания spark

У нас есть кластер AWS EMR с 1 ведущим и 3 подчиненными узлами.У нас есть общий диск, который мы...

Rony / 09 апреля 2019

0 голосов

0 ответов

Spark Streaming: состояние двух потоков

Я использую Spark Streaming.У меня есть два потока: value-stream и user-thresholds stream.Каждые...

VB_ / 09 апреля 2019

1 голос

1 ответ

Параметры отправки в AWS EMR spark - не удалось

Я пытаюсь запустить задание python на искровом кластере EMR. В параметрах отправки свечей я...

Zhang YaoWen / 09 апреля 2019

0 голосов

0 ответов

Как отслеживать статистику непрерывной обработки в структурированном потоке?

Я попытался включить мониторинг с использованием асинхронного API, приведенного в документации -...

gashu / 09 апреля 2019

3 голосов

2 ответов

добавьте несколько столбцов к существующему фрейму

Мне нужно добавить несколько столбцов в существующий фрейм данных искры, где имена столбцов...

nat / 09 апреля 2019

0 голосов

2 ответов

Spark Dataframes: добавить условный столбец в dataframe

Я хочу добавить условный столбец Flag к кадру данных A. Если выполнены следующие два условия,...

Neel_sama / 08 апреля 2019

0 голосов

0 ответов

Вычислительно дешевый способ получения прослеживаемости в искровом приложении

В масштабе мое приложение Spark будет работать с большим объемом данных (много ТБ).Многие из моих...

B. Smith / 08 апреля 2019

0 голосов

1 ответ

Всегда ли промежуточные значения требуют кэширования, чтобы избежать повторного вычисления в искре?

Мое искровое приложение состоит из начального RDD, на котором я выполняю 10 преобразований. DAG для...

B. Smith / 08 апреля 2019

0 голосов

0 ответов

Как создать ссылку на содержание S3 parquet / CSV

У меня есть файл в aws S3, в форматах CSV (~ 20 ГБ) и паркета (~ 4 ГБ). Этот файл проходит два...

Jesu Benin / 08 апреля 2019

0 голосов

2 ответов

Дата изменения Spark (scala) в столбце datetime

день изменения pyspark в столбце datetime Я пытаюсь сделать что-то похожее на ответ выше.Я получаю...

Brian / 08 апреля 2019

2 голосов

0 ответов

Взрывающиеся строки Pandas Columns по символам (точечный продукт)

Допустим, у меня есть этот фрейм данных +--------+-------+-----+-------+--------------------------+...

ricardohuarte / 08 апреля 2019

0 голосов

0 ответов

Hue / Hive как получить результат из множественного запроса Select

Я использую Hue4 для Hive и хотел бы запустить несколько операторов Select одновременно, аналогично...

Kenny / 08 апреля 2019

0 голосов

0 ответов

«Путь не найден» при попытке прочитать файлы из корзины s3 в другом регионе

Я пытаюсь прочитать все файлы из двух разных сегментов s3, которые находятся в разных регионах. При...

User24061990 / 08 апреля 2019

1 голос

1 ответ

Нативная библиотека snappy недоступна

Я пытаюсь сделать много объединений для некоторых фреймов данных, используя spark в scala.Когда я...

pkgajulapalli / 08 апреля 2019

1 голос

1 ответ

Использование определенной функции Spark 2.4?

Я использую алгоритм kmeans, я создаю VectorAssembler, устанавливаю inputcols в ("долгота",...

Aymen Rahal / 08 апреля 2019

1 голос

1 ответ

Spark functions.coalesce не работает с коллекциями mongodb, но работает с CSV

Coalesce логика работает нормально на CSV e1.csv id,code,type 1,,A 2,, 3,123,I e2.csv id,code,type...

Ratheri2 / 08 апреля 2019

0 голосов

0 ответов

Как эффективно читать каждое сообщение в теме Кафки с помощью Spark (используя scala)?

У меня есть задача прочитать каждое сообщение в теме Кафки, которая имеет 3 раздела.У меня есть...

Aidai Beishekeeva / 08 апреля 2019

0 голосов

0 ответов

Spark SQL API занимает больше времени, чем DF API

Я выполняю один и тот же искровой код, используя Spark SQL API и DataFrame API.Однако Spark SQL...

neeraj bhadani / 08 апреля 2019

0 голосов

1 ответ

Динамическое распределение ресурсов для неработающих приложений не работает

Я новичок в Spark и пытаюсь выяснить, как работает динамическое распределение ресурсов. У меня есть...

dexter007 / 08 апреля 2019

0 голосов

1 ответ

Анализ правил ассоциации Pyspark +: как перевести фрейм данных в формат, подходящий для частого анализа шаблонов?

Я пытаюсь использовать pyspark для майнинга правил ассоциации.Допустим, мои данные имеют вид:...

Feng Chen / 08 апреля 2019

4 голосов

2 ответов

Данные, считанные из кафки в искру, исчезают после регистрации в виде таблицы?

Рассмотрим данные, записанные из dataframe в kafka и затем прочитанные из kafka обратно в новый...

javadba / 08 апреля 2019

1 голос

0 ответов

Разреженное матричное умножение над искрой

Проблема Я хотел бы эффективно умножить 2 разреженных матрицы в инфраструктуре Spark в...

barak david / 07 апреля 2019