Вопросы с тегом апаш-искра

0 голосов

0 ответов

Смещение Кафки становится потерянным при обработке потоков

Я использую KafkaUtils.createDirectStream Kafka API для приема сообщений, а затем обрабатываю...

user1326784 / 14 января 2019

0 голосов

0 ответов

Как получить определенный столбец HBase, используя API HBaseContext.BulkGet в Spark Streaming

Я использую HBaseContext.BulkGet API в потоковой передаче. Ниже мой код. def enrichMessage(rdd:...

Indira / 14 января 2019

0 голосов

0 ответов

Как отправить данные из Spark в Elasticsearch (YARN и Docker-Compose)?

Я пытаюсь отправить простое приложение (написанное на Scala) с помощью spark-submit с YARN (мастер...

Nin4ikP / 13 января 2019

0 голосов

1 ответ

столбец строки искрового фильтра by содержит одну из списка строк

Мне нужно добиться чего-то похожего на: Проверка, являются ли значения в List частью String в искре

Georg Heiler / 13 января 2019

0 голосов

1 ответ

pyspark создание BlockMatrix из матриц разного размера

Я пытаюсь построить BlockMatrix, +---+---+---+---+ |7.0|6.0|3.0|0.0| |3.0|2.0|5.0|1.0| |9.0|4.0|0

Luke / 13 января 2019

0 голосов

1 ответ

emr-5.20.0 Spark 2.4.0 запись партера в s3 занимает слишком много времени

Я использую: ЭЙ-5.20.0 Hadoop 2.8.5 Spark 2.4.0 Одна из моих работ Spark записывает данные паркета...

varshnes / 13 января 2019

0 голосов

0 ответов

Пользовательский UnaryTransformer в Spark Scala в конвейере завершается ошибкой при чтении постоянной модели конвейера

Я разработал этот простой LogTransformer, расширив UnaryTransformer для применения преобразования...

Anindya Saha / 12 января 2019

0 голосов

0 ответов

Ошибка записи данных Spark / Databricks в Cosmos DB с API Mongo DB

Я пытаюсь записать данные из Spark (используя Databricks) в базу данных Mongo внутри Azure Cosmos...

Ayan / 12 января 2019

0 голосов

1 ответ

Как обновить файлы HDFS после каждого запуска?

Я пытаюсь записать обработанные данные в папку HDFS. Я получаю запись данных в папку HDFS после...

BigD / 12 января 2019

0 голосов

0 ответов

Spark-shell и pyspark с использованием glom

Я выполняю сценарий, используя пряжу spark-shell --master, как показано ниже У меня есть текстовый...

Sumit Pawar / 12 января 2019

0 голосов

1 ответ

Как удалить нули с помощью встроенной функции Spark SQL array_remove

Spark 2.4 представил новые полезные функции Spark SQL, включающие массивы, но я был немного...

datapug / 12 января 2019

0 голосов

1 ответ

Как проанализировать ошибку несоответствия типов с помощью набора данных Spark и UDF

Я работаю над двумя CSV-файлами для объединения данных и создания JSON Payload с использованием...

Tushar Kesarwani / 12 января 2019

0 голосов

1 ответ

Обработка событий из концентратора событий с помощью pyspark - Databricks

У меня есть поток изменений Mongo (приложение pymongo), который постоянно получает изменения в...

Bharath Bharath / 12 января 2019

0 голосов

2 ответов

Кафка Тема не стирается, когда потребитель Spark читает с нее

Я использую следующий потребительский код в Spark для чтения из темы Кафки: val df = spark .read

Aadith / 12 января 2019

0 голосов

3 ответов

Перекрестное объединение двух больших наборов данных в Spark

У меня есть 2 больших набора данных. Первый набор данных содержит около 130 миллионов записей....

user2597100 / 12 января 2019

0 голосов

1 ответ

Понимание ковариации в моем коде Scala

Я работаю с правильным синтаксисом и структурой для следующей проблемы. У меня есть два набора...

Vishaal Kalwani / 11 января 2019

0 голосов

1 ответ

Почему sbt не может найти KafkaUtils?

У меня есть эта ошибка в моем коде (wordCount от Kafka), скомпилированном с SBT [error]...

andrea5 / 11 января 2019

0 голосов

0 ответов

Spark Shuffle Время записи огромное для небольшого количества записей

У меня есть Spark Cluster (Автономный кластер, всего 4 рабочих - каждый работник имеет 16 ядер....

vishy / 11 января 2019

0 голосов

0 ответов

Поиск консольного эквивалента для show (), который переносит текст в столбцы

Я часто использую dataframe.show () для вывода табличных данных на консоль в удобочитаемой форме....

cwieder / 11 января 2019

0 голосов

0 ответов

Проблема с Hive при хранении потоковых данных

У меня есть задание Kafka Streaming Consumer, которое сохраняет данные в таблице Hive. Проблема в...

user1326784 / 11 января 2019

0 голосов

1 ответ

Развертывание модели Tensorflow / Keras в Spark Pipeline

Я обучил несколько RNN+biLSTM моделей, которые я хочу развернуть в конвейере, состоящем из pyspark...

Tshimanga / 11 января 2019

0 голосов

0 ответов

Как вы тестируете реализацию ForeachWriter?

Я пытался настроить некоторые модульные тесты, чтобы проверить логику в пользовательской реализации...

Maixy / 11 января 2019

0 голосов

0 ответов

Как переместить большой стол из PSQL в паркет на gcloud через Apache Spark?

У меня большой стол (около 300 ГБ) и баран около (50 ГБ) и 8 процессоров. Я хочу переместить свою...

user1871528 / 11 января 2019

0 голосов

3 ответов

Искровой стрим от кафки, как указать время отключения для опрошенных событий

У меня есть приложение для потокового воспроизведения, которое запускается в конце дня и использует...

Ajith Kannan / 11 января 2019

0 голосов

0 ответов

Почему употребление кафки не заканчивается в клоудере, а заканчивается в hortonworks?

У меня есть этот код: import org.apache.spark.sql.SparkSession object TopicIngester { def...

hey_you / 11 января 2019