Вопросы с тегом апаш-искра

0 голосов

1 ответ

Как создать озеро данных из Кафки в Hdfs с помощью Spark - хранение в пользовательских каталогах?

У меня есть СДР, преобразованный в dataFrame следующей структуры:...

El Shotodore / 25 апреля 2019

0 голосов

1 ответ

Как подключить локальный экземпляр Spark к таблицам Hive на удаленном сервере с керберизацией?

Контекст Я хочу использовать Spark 2 для некоторых элементарных ETL, но наши администраторы Hadoop...

Leo Orientis / 25 апреля 2019

0 голосов

0 ответов

Eclipse не может запустить Java-проект Spark

У меня есть проект maven spark java, который я хочу запустить на своем локальном компьютере, но...

user1495744 / 25 апреля 2019

0 голосов

1 ответ

Spark Streaming awaitTermination в ноутбуке Jupyter

Я следую вместе с кодом в Apache Spark Definitive Guide.Я столкнулся с проблемой, когда следующий...

Keerikkattu Chellappan / 25 апреля 2019

2 голосов

1 ответ

Получает ли Spark выгоду от `sortBy` в постоянной таблице?

Spark v2.4 no Hive Преимущество Spark от bucketBy в том смысле, что он знает, что DataFrame имеет...

colinfang / 25 апреля 2019

0 голосов

0 ответов

Hiveserver2 Как установить имя пользователя и пароль (AWS EMR)

Я хочу установить имя пользователя и пароль на hiveserver2 в AWS EMR. Я хочу установить «Spark SQL»...

tuitto / 25 апреля 2019

0 голосов

0 ответов

Spark Streaming не срабатывает

Я на ноутбуке jupyter и хочу смоделировать сервер для отправки виртуальных данных в приложении...

Romain Jouin / 25 апреля 2019

0 голосов

0 ответов

Карта Scala Spark PairRDD не может определить типы

Я пытаюсь позвонить map на PairRDD.Spark дает мне эту подпись: map[U](f: (A,B) => U) Я ожидал...

Atte Juvonen / 24 апреля 2019

0 голосов

0 ответов

Что такое «ExistingRDD» и плохо ли это для плана запроса?

Из того, что я вижу, rdd.toDF() вводит PythonRDD, что становится ExistingRDD в плане запроса. df1 =...

colinfang / 24 апреля 2019

0 голосов

0 ответов

скопируйте файлы из корневого каталога проекта в образ докера с помощью плагина sbt-docker

Попытка просто взять некоторые файлы из корневого каталога моего проекта (того же уровня, что и...

horatio1701d / 24 апреля 2019

0 голосов

0 ответов

Выполнение SQL-запроса в Impala Hue дает другое количество, чем при запуске с использованием Spark SQL

Выполнение одного и того же запроса в Impala Hue и Spark с разными значениями. Я пытаюсь получить...

amit kumar / 24 апреля 2019

0 голосов

0 ответов

Ошибка «Нет плана для EventTimeWatermark» при использовании структурированной потоковой передачи с сокращением столбцов (spark 2.3.1)

Я получаю сообщение об ошибке «Нет плана для EventTimeWatermark» при выполнении запроса с удалением...

Venus / 24 апреля 2019

0 голосов

1 ответ

Вычтите два массива, чтобы получить новый массив в Pyspark

Я новичок в Spark. Я могу суммировать, вычитать или умножать массивы в Python Pandas & Numpy. Но...

Silvana / 24 апреля 2019

1 голос

1 ответ

спарк данных больше, чем объем памяти узла при объединении (1)

я работаю на спарке 1.6.1 У меня есть распределенный фрейм данных, и он наверняка больше, чем все...

user1361815 / 24 апреля 2019

2 голосов

1 ответ

Тестирование служебной функции путем написания модульного теста в apache spark scala

У меня есть служебная функция, написанная на scala для чтения паркетных файлов из корзины s3. Может...

wandermonk / 24 апреля 2019

0 голосов

0 ответов

Можно ли каким-либо образом настроить приведенный ниже код Pyspark MLib, который рассчитывает квантили для повышения производительности?

Я пытаюсь найти квантили для каждого столбца в таблице для различных фирм, использующих спарк 1.6 У...

Vishwanath560 / 24 апреля 2019

0 голосов

1 ответ

Spark неправильно преобразовывает набор данных в набор данных строки JSON

Я столкнулся со странным поведением Apache Spark. Проблема в том, что я получаю неправильное...

ruslangm / 24 апреля 2019

0 голосов

1 ответ

Как подключить несколько Cassandra в разных DC

Я настраиваю приложение, в котором я использую сеанс spark для чтения данных с Кассандры. Я могу...

Shreya Mahajan / 24 апреля 2019

0 голосов

0 ответов

Kafka не может получать сообщения от структурированной потоковой передачи

Spark Structured Streaming записал результаты в kafka, но я не смог найти данные в теме Kafka,...

nsko / 24 апреля 2019

0 голосов

1 ответ

Как сгруппировать определенный столбец и извлечь всю строку в виде строки JSON в Scala Spark?

Я пытаюсь собрать набор данных в формате JSON val df = spark.sql("select invn_ctl_nbr,cl_id...

Mohit Raja / 24 апреля 2019

0 голосов

0 ответов

Bucketing таблиц, по-прежнему приводит к Exchange

Я использовал Bucketing при объединении двух таблиц, но обмен все еще происходит. Я не уверен, что...

RIYA SINGHAL / 24 апреля 2019

1 голос

1 ответ

Как долго искровая работа будет ждать ресурса из пряжи при нехватке ресурсов?

Когда задание Spark не может получить достаточно ресурсов для запуска, и оно зависает там, чтобы...

Will Wang / 24 апреля 2019

1 голос

1 ответ

Показать полные результаты для потокового пакета Spark, используя выходной формат консоли

Для искровой структурированной потоковой передачи процесс чтения: sdf.writeStream

javadba / 24 апреля 2019

0 голосов

2 ответов

Spark структурированный поток с контрольной точки Kafka и подтверждение

В моем приложении структурированного потокового вещания я читаю сообщения от Кафки, фильтрую их и,...

raizsh / 24 апреля 2019

1 голос

0 ответов

Как добавить дополнительный удаленный репозиторий в Zeppelin?

Используя следующий код в заметке Zepplin, я смог добавить репозиторий и зависимость. Как бы я...

Ari / 24 апреля 2019