Вопросы с тегом апаш-искра

0 голосов

1 ответ

Вызвано: org.bson.BsonInvalidOperationException: недопустимое состояние INITIAL

В Интернете есть несколько похожих вопросов, но никто не имеет ответов. Я использую следующий код...

Tom / 27 апреля 2019

1 голос

2 ответов

Поиск пути между двумя вершинами, которые не связаны напрямую

У меня есть связанный граф, как этот user1|A,C,B user2|A,E,B,A user3|C,B,A,B,E user4|A,C,B,E,B где...

DebD / 27 апреля 2019

0 голосов

1 ответ

Исключение из-за нехватки памяти или рабочий узел потерян во время задания искры

Я выполняю задание spark-scala с использованием spark-shell, и проблема, с которой я сталкиваюсь,...

GRK / 26 апреля 2019

0 голосов

1 ответ

Как вычесть два DataFrames с сохранением дубликатов в Spark 2.3.0

Spark 2.4.0 представляет новую удобную функцию exceptAll, которая позволяет вычитать два кадра...

addmeaning / 26 апреля 2019

4 голосов

1 ответ

Как использовать пакет spark-avro для чтения файла avro из spark-shell?

Я пытаюсь использовать пакет spark-avro, как описано в Руководство по источникам данных Apache Avro...

sahibeast / 26 апреля 2019

0 голосов

1 ответ

Источник данных CSV не поддерживает двоичный тип данных

Я пытаюсь запустить потоковое приложение, которое считывает данные из потока kafka и обрабатывает...

Ash / 26 апреля 2019

0 голосов

1 ответ

Как выполнить параллельную обработку файлов (pdf, docs, txt, xls) в каталоге в локальной папке на рабочем столе с помощью PySpark?

У меня около 9000 файлов в разных подкаталогах в одном каталоге на локальном рабочем столе.Общий...

Aswathi / 26 апреля 2019

2 голосов

2 ответов

Как читать пользовательские даты в формате pyspark

Я хочу использовать spark.read () для извлечения данных из файла .csv, применяя схему. Тем не менее...

Chris Dudziak / 26 апреля 2019

0 голосов

2 ответов

Запись в граф DSE из EMR

Мы пытаемся писать для записи в график DSE (cassandra) из EMR и продолжаем получать эти ошибки. Мой...

mat77 / 26 апреля 2019

0 голосов

1 ответ

Pyspark - Добавить ряды по группам

В Pyspark 2.2 я, по сути, пытаюсь добавить строки по пользователю. Если у меня есть мой основной...

DataTx / 26 апреля 2019

3 голосов

0 ответов

Spark Структурированная потоковая передача: получить второй ряд агрегации окна за 1 минуту

Я использую потоковую структуризацию с искрой, где мне нужно взять значение из второй строки окна....

thedevd / 26 апреля 2019

0 голосов

0 ответов

Остановка работы Spark при добавлении новых столбцов в DataFrame

Я читаю файлы из S3 в DataFrame, ограничивая записи до 100. Затем я добавляю около 10 столбцов в...

Vijayant / 26 апреля 2019

0 голосов

0 ответов

Почему я получаю неправильный результат агрегирования после использования оконной функции?

Я выполняю простую агрегацию сумм в Spark на фрейме данных, где ранее была применена оконная...

messenjah00 / 26 апреля 2019

0 голосов

0 ответов

Слияние искровых разделов по именам разделов

Мы получаем данные с сервера Kafka, где каждая тема имеет 10 разделов.Мы обрабатываем его с помощью...

gszecsenyi / 26 апреля 2019

0 голосов

0 ответов

Проблема ротации журнала Spark-Scala, невозможно создать внешний журнал

Проблема ротации журнала Spark-Scala, невозможно создать внешний журнал: Невозможно создать ротацию...

Srini K / 26 апреля 2019

1 голос

1 ответ

Apache Spark - итераторы и потребление памяти

Я новичок в spark и у меня вопрос по поводу использования искровой памяти с итераторами. При...

ron_bril / 26 апреля 2019

0 голосов

1 ответ

Spark Streaming не читает данные из Kinesis

Я подготовил код pyspark для чтения данных из AWS Kinesis во время потоковой передачи искры.Код...

prianshu / 26 апреля 2019

0 голосов

1 ответ

Как разбить строку текста и добавить эту строку к каждому элементу в Scala / Spark

Учитывая строку типа «Яблоко упало с дерева», как мне разбить его так, чтобы к каждому слову...

teaguecole / 26 апреля 2019

2 голосов

2 ответов

фильтровать или маркировать строки на основе массива Scala

Есть ли способ фильтровать или маркировать строки на основе массива Scala? Имейте в виду, что в...

Brian / 25 апреля 2019

0 голосов

1 ответ

PySpark: как обновить вложенные столбцы?

StackOverflow имеет несколько ответов о том, как обновить вложенные столбцы в кадре данных.Однако...

AntonyP / 25 апреля 2019

0 голосов

1 ответ

Невозможно создать локальный каталог в EMR пользователем 'livy'

Я отправляю задание pyspark в EMR кластер из AWS Step Function через apache livy .Задание pyspark...

Parijat Bose / 25 апреля 2019

0 голосов

3 ответов

Spark - сопоставить плоский фрейм данных с настраиваемой вложенной схемой json

У меня плоский фрейм данных с 5-6 столбцами. Я хочу вложить их и преобразовать во вложенный массив...

mythic / 25 апреля 2019

0 голосов

1 ответ

Spark Rdd - использование sortBy с несколькими значениями столбцов

После группировки моего набора данных это выглядит следующим образом (AD_PRES,1) (AD_VP,2)...

Learn Hadoop / 25 апреля 2019

0 голосов

1 ответ

Агрегирование строк ArrayType состоит из чисел с плавающей запятой, использующих функции высшего порядка

Я использую Databricks и у меня есть таблица, в которой столбцы values состоят из массивов.Сами...

Silvana / 25 апреля 2019

0 голосов

0 ответов

Выберите данные между 2 кварталами

У меня есть набор данных со столбцом, представляющим собой конкатенацию года и квартала...

Kumar P / 25 апреля 2019