Вопросы с тегом апаш-искра

0 голосов

1 ответ

Оптимизация записи разделенных данных в S3 в spark sql

У меня около 700 ГБ данных, которые я читаю из HDFS при каждом запуске задания Spark. Моя работа...

GothamGirl / 16 января 2019

0 голосов

0 ответов

Есть ли лучший способ написать несколько соединений при разных условиях в spark-sql?

У меня есть оригинальный фрейм данных с несколькими столбцами, чтобы упростить их: product_id,...

iluvex / 16 января 2019

0 голосов

1 ответ

Группа SparkBy против перераспределения плюс mapPartitions

Мой набор данных ~ 20 миллионов строк, занимает ~ 8 ГБ ОЗУ. Я выполняю свою работу с 2...

VB_ / 16 января 2019

0 голосов

1 ответ

Запретить вывод результатов из структурированного потока в Spark Shell

В настоящее время я пытаюсь использовать структурированную потоковую передачу в Scala Spark Shell....

Markus Wilhelm / 16 января 2019

0 голосов

1 ответ

Определите пользовательский интерфейс Spark Scala с параметром Option в качестве входного параметра

Написал следующий UDF с целью заставить его обрабатывать случай, когда один параметр не определен....

scalacode / 16 января 2019

0 голосов

1 ответ

как работает "обмен хэш-секционированием" в spark

У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы...

mly / 16 января 2019

0 голосов

0 ответов

Десериализация задачи Sparksteaming медленно в первый раз?

Привет всем: я обнаружил проблему в своем кластере с искровым потоком. Мы собираем потребителя,...

Gavin Gu / 16 января 2019

0 голосов

1 ответ

Spark ML: плавные входные данные

Разрабатывая новый проект ML с помощью Spark, мы хотим сначала сгладить входные данные, чтобы иметь...

Rolintocour / 16 января 2019

0 голосов

1 ответ

Kafka Direct Stream в DataFrame не работает с окном

У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache

ferdyh / 16 января 2019

0 голосов

1 ответ

sparkSession.sql, выбрасывающий NullPointerException

У меня есть два класса scala как часть моей работы на spark-sql, то есть Driver.scala и...

Shyam / 16 января 2019

0 голосов

0 ответов

Задача Spark DStream.mapWithState не сбалансирована для всех исполнителей, что со мной?

4 исполнителя.и 35 данных раздела, нет перекоса данных.на этапе mapWithState существует 10 задач,...

belle tian / 16 января 2019

0 голосов

0 ответов

Spark JDBC Connection интерпретирует первичные ключи как обнуляемые

Я использую Spark JDBC для подключения к таблице MySQL. Когда он читает таблицу, схема содержит все...

guru107 / 16 января 2019

0 голосов

0 ответов

YARN работникам не хватает места на диске

Мы сталкиваемся с ошибкой No space on device при выполнении заданий Spark в нашем кластере YARN....

summerbulb / 16 января 2019

0 голосов

0 ответов

Вкладка потоковой передачи в истории заданий Spark

Доступна ли вкладка потоковой передачи для готовых приложений потокового воспроизведения. Можем ли...

Bharghavi Vajrala / 16 января 2019

0 голосов

1 ответ

SQLContext в Spark2 не получает обновленные записи таблицы улья

У меня есть работающее приложение, которое запрашивает таблицу кустов, используя HiveContext, и оно...

Ajith Kannan / 16 января 2019

0 голосов

2 ответов

Знает ли фрейм данных тип столбца?

После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не...

Wayne / 16 января 2019

0 голосов

0 ответов

Pyspark Структурированные потоковые динамические раздвижные окна

Я пытаюсь получить максимальное, среднее для всех строк за последние x минут (например, 10 минут)...

Chetan N / 16 января 2019

0 голосов

1 ответ

Как выполнить поиск по сетке для Random Forest с использованием библиотеки Apache Spark ML

Я хочу выполнить поиск по сетке для моей модели случайного леса в Apache Spark. Но я не могу найти...

Regressor / 16 января 2019

0 голосов

0 ответов

как spark записывает несколько файлов G байтов в openstack swift

есть ли у spark возможность записывать большие файлы (несколько G байтов) в openstack swift...

BAE / 15 января 2019

0 голосов

1 ответ

S3 параллельное чтение и запись производительности?

Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1...

rogue-one / 15 января 2019

0 голосов

1 ответ

Как сделать сумму столбцов и сделать ее доступной как столбец в Spark SQL

У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых...

BigD / 15 января 2019

0 голосов

0 ответов

спарк с пряжи log4j централизовать или реплицировать журналы на многоузловом кластере

Я работаю в кластере с 3 узлами HDP (2 датода, 1 наменод) на 3 разных виртуальных машинах,...

SimbaPK / 15 января 2019

0 голосов

0 ответов

Как мне обновить только определенные разделы в спарк?

У меня есть разделенный фрейм данных, сохраненный в hdfs. Я должен периодически загружать новые...

hey_you / 15 января 2019

0 голосов

1 ответ

Панды не могут читать файлы паркета, созданные в PySpark

Я пишу файл паркета из Spark DataFrame следующим образом: df.write.parquet("path/myfile

Thomas / 15 января 2019

0 голосов

2 ответов

Фильтрация DataFrame по сравнению столбцов даты

Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе...

Inna / 15 января 2019