Вопросы с тегом апаш-искра

0 голосов

0 ответов

Почему Spark Job застревает и не завершает работу даже после сбоев задачи

У нас есть Spark-задание, которое запускается каждые 10 минут (в среднем, для выполнения задания...

Vishal Akkalkote / 15 октября 2019

0 голосов

0 ответов

Объединение таблиц работает, но запрос на выбор дает проблемы в искре

У меня есть две таблицы, к которым я присоединился в Spark. Я пытаюсь запустить операцию выбора...

Vivek Cu / 15 октября 2019

3 голосов

1 ответ

Spark: как оконная обработка распределяется между исполнителями?

У меня есть четкое представление о том, как Spark разбивает данные на разделы внутри исполнителей,...

Rolintocour / 15 октября 2019

2 голосов

2 ответов

pyspark spark 2.4 на EMR 5.27 - остановка обработки кластера после вывода списка файлов

Учитывая приложение, преобразующее csv в паркет (из и в S3) с небольшим преобразованием: for table...

Jay Cee / 15 октября 2019

0 голосов

1 ответ

Как удалить последнюю строку из RDD Spark Scala

Я хочу удалить последнюю строку из RDD с помощью функции .mapPartitionsWithIndex. Я пробовал ниже...

Praveen / 15 октября 2019

0 голосов

1 ответ

Dasastax искровой соединитель кассандры с RetryPolicy для записи DF в таблицу кассандры

Я пытаюсь записать искровой датафрейм на кассандру с уровнем согласованности "EACH_QUORUM". Мой код...

Ana / 15 октября 2019

1 голос

2 ответов

Объединение двух фреймов данных в Scala со столбцом, который не имеет точных значений

Я попытался объединить два кадра данных относительно столбца, которые не имеют точно одинаковые...

Antony / 15 октября 2019

0 голосов

0 ответов

Percentile_approx не работает в Pyspark, возвращает то же значение

Я пытаюсь получить 25,50 и 75 процентилей, но мой код работает не очень хорошо, я пытаюсь перевести...

Fernando / 15 октября 2019

6 голосов

0 ответов

Архитектура Kappa: когда происходит вставка в пакетный / аналитический обслуживающий слой

Как вы знаете, архитектура Kappa - это своего рода упрощение архитектуры Lambda. Каппа не нуждается...

VB_ / 15 октября 2019

0 голосов

1 ответ

SPARK STREAMING: я хочу сделать несколько потоковых упражнений, как получить хороший источник потоковых данных?

Я хочу сделать несколько потоковых упражнений, как получить хороший источник потоковых данных? Я...

Bishamon Ten / 15 октября 2019

0 голосов

0 ответов

возникла ошибка с java.lang.UnsupportedOperationException: не реализованный тип: LongType

Я пытался получить счет нет. нулей в нескольких столбцах, которые имеют Int, Double и Long. Итак, я...

Ruthika jawar / 15 октября 2019

0 голосов

2 ответов

Сравните два столбца в кадре данных и найдите скорость изменения значений

Я пытаюсь сравнить два столбца в кадре данных и выяснить скорость изменения значения. Я написал UDF...

Antony / 15 октября 2019

1 голос

1 ответ

Неожиданное поведение ReduKyKey в искре (с Scala)? Слово "rev" зарезервировано в искре или скале?

У меня есть файл с некоторыми записями. 1,1,957,1,299.98,299.98 2,2,1073,1,199.99,199.99 3,2,502,5...

Pala / 15 октября 2019

0 голосов

1 ответ

Я хочу отфильтровать текстовый файл формы чтения строк с набором ключевых слов

Я написал код ниже, он работает для одного слова, но когда я даю переменную seq, я не получаю вывод...

Piyush Chandra / 15 октября 2019

2 голосов

2 ответов

Получить верхние значения на основе составного ключа для каждого раздела в Spark RDD

Я хочу использовать следующий rdd rdd = sc.parallelize([("K1", "e", 9),...

Samson / 15 октября 2019

1 голос

1 ответ

Как структурированный поток динамически анализирует данные json Кафки

Я пытаюсь читать данные из Кафки, используя структурированную потоковую передачу. Данные,...

Sin / 15 октября 2019

3 голосов

2 ответов

Получить всю запись из nth bucket в Hive sql

Как получить всю запись из n-го сегмента в улье. Выбрать * из bucketTable из сегмента 9;

baidya s / 15 октября 2019

0 голосов

1 ответ

Импортируйте файл CSV как набор данных PySpark (НЕ Фреймы данных)

Как я могу импортировать файл CSV в PySpark как набор данных ? Обратите внимание, что я НЕ...

Iterator516 / 15 октября 2019

0 голосов

1 ответ

Как я могу присоединиться к RDD [Rating] с scala.collection.Map [Int, Double] по ключевому столбцу?

У меня есть две таблицы -> table1: RDD [Rating] (rdd1, rdd2, rdd3) и table2: scala.collection.Map...

Vadim Palyonov / 15 октября 2019

0 голосов

1 ответ

PySpark Mocking: тест исключений успешен, но исключение не обрабатывается

Я использую python 2.7 (не спрашивайте меня, почему, я подрядчик, я просто работаю с тем, что мне...

Christos Hadjinikolis / 15 октября 2019

1 голос

1 ответ

Невозможно прочитать из корзины S3 с протоколом s3, только s3a

Я прошел через все потоки на зависимостях для подключения искры, работающей на EMR AWS, к корзине...

S Dub / 15 октября 2019

0 голосов

0 ответов

Повторное использование и клонирование Dataframe в Spark 2.3 для нескольких левых объединений

Я пытаюсь объединить основную таблицу с несколькими Dataframe Key-Value, полученными из одного...

Sandeep540 / 14 октября 2019

0 голосов

0 ответов

Как разбить элементы массива столбца на строки потокового информационного кадра в spark

У меня есть паркетный файл в учетных записях хранения ADLS Gen2. Я хочу разбить все элементы...

Saikat / 14 октября 2019

0 голосов

0 ответов

Spark 2.0 - Разделение Dataframe на subDataframes без использования createOrReplaceTempView

У меня есть DF, как показано ниже, мне нужно преобразовать его в подкадры данных без использования...

Sandeep540 / 14 октября 2019

0 голосов

0 ответов

Несколько левых объединений не работают, как ожидалось в Spark 2.0 (Scala)

У меня есть датафрейм из БД val listvaluesDF = spark.sqlContext.read.format("jdbc")

Sandeep540 / 14 октября 2019