Вопросы с тегом апаш-искра

4 голосов

2 ответов

Что содержит foreachBatches в потоковом запросе из нескольких тем Kafka?

Учитывая DataStreamReader, настроенный для подписки на несколько тем, подобных этой (см. здесь ):...

Beryllium / 11 июля 2019

0 голосов

2 ответов

Как преобразовать некоторые атрибуты JSON в строки, используя фреймы данных в спарк

Я новичок и пытаюсь решить следующую проблему. Любая помощь высоко ценится. У меня есть следующий...

sandeep singh / 11 июля 2019

1 голос

1 ответ

Невозможно сохранить файл CSV с помощью PySpark Dataframe в AWS EMR

Я хочу сохранить файл CSV со сжатием gzip. Код выполняется успешно, но он молча завершается с...

Aviral Srivastava / 11 июля 2019

0 голосов

1 ответ

Как найти все смайлики из столбца PySpark Dataframe?

У меня есть столбец во фрейме данных spark, в котором есть несколько сообщений. Вот образец:...

DataPsycho / 11 июля 2019

1 голос

0 ответов

Предварительно обработать сжатый файл перед обработкой в Spark

У меня есть искра, которая обрабатывает несколько сжатых файлов. Файлы имеют кодировку Windows 1252...

Terry Dactyl / 11 июля 2019

0 голосов

1 ответ

Ошибка при использовании метода showframe show в pyspark

Я пытаюсь прочитать данные из BigQuery, используя pandas и pyspark.Я могу получить данные, но...

Aman Mittal / 11 июля 2019

1 голос

0 ответов

Есть ли альтернатива для na.replace, в которой типы данных заменяемой строки и замены могут быть разными?

Я хочу получить нулевые поля от df до моего json и при этом использовал метод na.fill, чтобы...

Sanyam Jain / 11 июля 2019

0 голосов

0 ответов

Почему уровень хранения по умолчанию для постоянного хранения отличается между документами и комментариями кода?

В документе Spark говорится, что уровень хранилища по умолчанию - MEMORY_ONLY, однако в...

Liang2wen / 11 июля 2019

3 голосов

0 ответов

Вызов Scala UDF в Pyspark JavaPackage не вызывает ошибку

Я пытаюсь использовать scala UDF в pyspark Мой scala udf выглядит следующим образом. package com

broccoli / 11 июля 2019

0 голосов

0 ответов

Есть ли способ, где я могу получить сообщение [данные столбца значения] из Spark Dataframe в строковую переменную?

Я хочу получить только первое сообщение от производителя Kafka, и на основе этого сообщения я...

Akash Patel / 10 июля 2019

1 голос

0 ответов

Spark Sql - работает дважды

Я сталкиваюсь с искровым кодом для процесса ETL, в котором написаны длинные сложные SQL-операторы,...

Owais Ajaz / 10 июля 2019

0 голосов

1 ответ

Pyspark Получить подстроку из имени файла и сохранить как новый столбец

Я обрабатываю файлы CSV из S3 с помощью pyspark, однако я хочу включить имя файла в качестве нового...

Chetan Yadav / 10 июля 2019

0 голосов

0 ответов

Spark - структурированное потоковое произвольное состояние GroupState.hasTimedOut никогда не происходит с flatMapGroupWithState

hasTimedOut метод никогда не true в моей функции обработки произвольного состояния updateState def...

Oleg Shavrov / 10 июля 2019

0 голосов

1 ответ

Реализуйте case-класс внутри класса

Я использую приведенный ниже код для запуска в Qubole Notebook, и код выполняется успешно. case...

Sarath Avanavu / 10 июля 2019

1 голос

1 ответ

Spark структурированные потоковые приемники на выходе задерживаются

Приведенный ниже искровой структурированный потоковый код собирает данные из Kafka каждые 10...

Kamalanathan Venkatesan / 10 июля 2019

1 голос

1 ответ

Как сгладить несколько RDD на молнии?

Я заархивировал три RDD и в результате получил вложенную структуру. val rdd1 = sc

samba / 10 июля 2019

0 голосов

0 ответов

Написание собственного Spark SQL Parser

Мне нужно реализовать настроенный синтаксический анализатор Spark Sql, и я нашел эту ссылку ,...

Clover / 10 июля 2019

1 голос

1 ответ

как задачи выполняются в движке искры (см. DAG)?

Буду благодарен, если кто-нибудь ответит мне и объяснит мне этот вопрос. Из того, что я понимаю,...

Maher Marwani / 10 июля 2019

0 голосов

1 ответ

Следите за всеми параметрами spark-submit

У меня есть команда, в которой многие участники имеют разрешение отправлять задачи Spark в YARN...

Quy Doan / 10 июля 2019

0 голосов

0 ответов

Исключение в потоке "main" java.lang.UnsupportedClassVersionError: org / apache / spark / launcher / Main

изучает Spark, пытается установить искру на моем компьютере, следуя инструкции Я использую эту...

Andrey / 10 июля 2019

0 голосов

1 ответ

Сравнивать по уменьшению Scala

У меня есть список пар (id- (имя-значение)). Вот так val input = sc.parallelize(Array(Array(1,...

Phước Hữu Lưu / 10 июля 2019

0 голосов

1 ответ

пакет sbt не добавляет зависимости

Я пытаюсь собрать банку, используя sbt package. build.sbt: name := "Simple Project"...

Astro / 10 июля 2019

0 голосов

0 ответов

CDATA JDBC Драйвер для Facebook

Я пытаюсь подключиться к Facebook через драйвер CDATA JDBC. Я использую Apache Spark. Но получаю...

Karam / 10 июля 2019

0 голосов

0 ответов

Spark on Cluster: чтение большого количества маленьких файлов avro занимает слишком много времени для отображения

Я знаю, что эта проблема чтения большого количества маленьких файлов в HDFS всегда была проблемой и...

Neel_sama / 10 июля 2019

1 голос

1 ответ

Оптимизировать запрос спарк-раздела

Есть ли лучший способ написать этот запрос ... учитывая миллионы строк с использованием spark и...

user3033965 / 10 июля 2019