Вопросы с тегом апаш-искра

1 голос

0 ответов

Как мне передавать данные в Neo4j с помощью Spark

Я пытаюсь записать потоковые данные в Neo4j, используя Spark, и у меня возникли некоторые проблемы...

Lisa / 23 мая 2019

0 голосов

0 ответов

java.io.FileNotFoundException: ./src/main/resources/config.properties(no такой файл или каталог) в spark-submit

Я получаю конфиг в виде in = instance.getClass().getResourceAsStream("/config

jack feng / 23 мая 2019

2 голосов

1 ответ

Как вернуть разные наборы в PySpark RDD?

У меня есть RDD с другим набором значений, и я хочу вернуть все отдельные наборы из исходного RDD....

Abhishek Dhanasetty / 23 мая 2019

1 голос

1 ответ

Ошибки при создании простого кластера искр Azure HDInsight с помощью Pulumi

Я пытаюсь использовать Pulumi Javascript SDK для создания Spark-кластера HDInsight в Azure.Я...

Nick / 23 мая 2019

0 голосов

0 ответов

Как сжать сотни Spark RDD в один

Мне нужно передать ко многим различным сценариям и денормализовать все результаты в одну таблицу (,...

ecoe / 22 мая 2019

1 голос

0 ответов

Spark Structured Streaming не может записать данные паркета в HDFS

Я пытаюсь записать данные в HDFS из структурированного потокового кода в Scala. Но я не могу этого...

Yrah / 22 мая 2019

1 голос

0 ответов

Как полностью очистить Spark Session?

Мой вариант использования вращается вокруг перезапуска / очистки SparkSession для каждого...

user3613290 / 22 мая 2019

0 голосов

1 ответ

Как сохранить завершенные приложения после перезапуска сервера пряжи в spark web-ui

Я использую менеджер ресурсов пряжи для искры.после перезапуска сервера пряжи все выполненные...

Chandra / 22 мая 2019

2 голосов

1 ответ

Почему AWS отклоняет мои подключения, когда я использую wholeTextFiles () с pyspark?

Я использую sc.wholeTextFiles(",".join(fs), minPartitions=200) для загрузки 6k XML-файлов...

sacherus / 22 мая 2019

0 голосов

0 ответов

IP-адрес активного мастера и mtime не обновляются в master_status znode, созданном с помощью spark

Я настроил Spark для HA, используя SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy

Naresh / 22 мая 2019

1 голос

1 ответ

Операция подсчета не работает на агрегированном IgniteDataFrame

Я работаю с Apache Spark и Apache Ignite. У меня есть набор данных spark, который я написал в...

Amar Gajbhiye / 22 мая 2019

0 голосов

2 ответов

Создать датафрейм на принтсхема вывода

Я создал фрейм данных поверх файла паркета и теперь могу видеть схему фрейма данных. Теперь я хочу...

pratik rudra / 22 мая 2019

0 голосов

0 ответов

Размер файлов Apache Spark Temp на диске

У меня есть настройка, при которой входящие данные из кластера Kafka обрабатываются потоковым...

Neeraj Gupta / 22 мая 2019

0 голосов

1 ответ

Как прочитать поток структурированных данных и записать в таблицу Hive

Необходимо прочитать поток структурированных данных из потока Кафки и записать его в уже...

Prashant / 22 мая 2019

0 голосов

2 ответов

Pyspark - объединяет все столбцы данных

Я хочу сгруппировать фрейм данных в один столбец, а затем применить статистическую функцию ко всем...

ALEX MATHEW / 22 мая 2019

0 голосов

0 ответов

Класс org.apache.oozie.action.hadoop.SparkMain не найден

ниже приведены все файлы oozie, которые я использовал для запуска задания. Я создал папку в hdfs /...

mahendra singh / 22 мая 2019

7 голосов

3 ответов

Разделенная таблица Hive считывает все разделы, несмотря на наличие фильтра Spark

Я использую spark со scala для чтения определенного раздела Hive. Раздел: year, month, day, a и b...

Pablo López Gallego / 22 мая 2019

0 голосов

0 ответов

Как искра решает, нет.разделов / задач для создания при чтении из Hive

Скажем так: у нас в Hive хранится таблица, разбитая на дату.Например: у нас есть таблица с именем...

Devavrata / 22 мая 2019

0 голосов

2 ответов

Как уменьшитьByKey в PySpark с настраиваемой группировкой строк?

У меня есть датафрейм, который выглядит следующим образом: items_df...

Sriram Ranganathan / 22 мая 2019

0 голосов

0 ответов

Где алгоритм сортировки в исходном коде искры?

Я делаю простой запрос: spark.sql("SELECT * FROM mytable ORDER BY age").collect() Мой...

proxyfss / 22 мая 2019

0 голосов

2 ответов

Что такое память, vcores и диски на странице планировщика пряжи?

Может кто-нибудь подробно объяснить используемые ресурсы, минимальные ресурсы и максимальные...

Syed Mazreena / 22 мая 2019

2 голосов

0 ответов

Как включить и «последний», и «JSON с определенным смещением» в «startOffsets» при импорте данных из Kafka в Spark Structured Streaming

У меня есть потоковый запрос, сохраняющий данные в fileink. Я использую .option («стартовый набор»,...

drone / 22 мая 2019

0 голосов

0 ответов

Ошибка открытия блока StreamChunkId: BlockNotFoundException

Я получаю некоторые временные исключения, за исключением использования потоковой передачи с Amazon...

user2980749 / 22 мая 2019

2 голосов

2 ответов

NoSuchMethodError?Код в порядке в идее, но неправильно на кластере

Мой код работает нормально на моей win7 idea64, но когда я упаковываю код и запускаю его на...

jack feng / 22 мая 2019

0 голосов

2 ответов

Как увеличить «общее количество памяти», отображаемое в интерфейсе Yarn?

У меня есть кластер на EMR (emr-5.20.0) с m5.2xlarge в качестве Node Master, два m4.large в...

Carlos Henrique / 22 мая 2019