Вопросы с тегом апаш-искра

0 голосов

0 ответов

Как ускорить сохранение разделенных данных только с одним разделом?

Операция сохранения искровых данных выполняется довольно медленно, если: кадр данных df,...

conderls / 14 февраля 2019

0 голосов

1 ответ

Альтернатива для создания dataframe внутри foreach

У меня есть JavaPairRDD, на котором я хочу выполнить итерацию, выполнить некоторую операцию и...

Sam / 14 февраля 2019

0 голосов

0 ответов

Как использовать udf для вычисления данных из таблицы

Я пытаюсь извлечь данные из таблицы на основе объединения с данными, поступающими из потока. Запрос...

Arun Tyagi / 14 февраля 2019

0 голосов

0 ответов

Как передать ключ файла свойств в xpath

Я использую spark 2.3.0 и пытаюсь передать ключ файла свойств в xpath, чтобы получить значение из...

Arun Mohan / 14 февраля 2019

0 голосов

1 ответ

Pyspark - DataFrame persist () выдает ошибки java.lang.OutOfMemoryError: Превышен лимит накладных расходов GC

Сбой задания Pyspark, когда я пытаюсь сохранить DataFrame, созданный в таблице размером ~ 270 ГБ, с...

Sam / 14 февраля 2019

0 голосов

0 ответов

отказ свечей

Я построил искру 2.3.2 из источника в системе с прямым порядком байтов.Я наблюдал следующий сбой...

Ravi _SS / 14 февраля 2019

0 голосов

0 ответов

Ссылка загруженная библиотека JAR

Я выставил набор функций поддержки в библиотеку helper.jar и импортировал в кластер Databricks.Jar...

Dan / 14 февраля 2019

0 голосов

0 ответов

Spark 2.0-2.3 DataSets groupByKey и mapGroups

Я вижу правильный вывод записей при локальном запуске.Однако, когда я работаю в кластере, результат...

Nathan Ronsse / 14 февраля 2019

0 голосов

0 ответов

Фильтр по классу `org.jdom.ContentList $ FilterList`, чтобы получить экземпляр элемента

def printTree(e: Element, depth: Int){ System.out.println("Number of children in element :...

Miguel A. Friginal / 13 февраля 2019

0 голосов

0 ответов

Spark on YARN: показать прогресс в веб-интерфейсе Resource Manager

Веб-интерфейс диспетчера ресурсов YARN имеет столбец «Ход выполнения».Это значение не обновляется...

Aleks Ya / 13 февраля 2019

0 голосов

0 ответов

Как сделать агрегацию на текущий день в Spark Streaming

У меня есть требование, в котором мне нужно вычислять количество определенных значений на сегодня,...

riyaB / 13 февраля 2019

0 голосов

0 ответов

ClassNotFoundException: net.logstash.log4j.JSONEventLayoutV1 в собранном файле JAR Spark

Я запускаю приложение Spark из файла jar.Когда я определяю в log4j пользовательский файл и запускаю...

Cassie / 13 февраля 2019

0 голосов

1 ответ

Создайте вложенный JSON из всех строк, имеющих одинаковый идентификатор: DataFrame

У меня есть DataFrame df4 с тремя столбцами id аннотирующая сущность data с данными массива JSON...

user811602 / 13 февраля 2019

0 голосов

1 ответ

В чем разница между сортировкой в Spark SQL и сортировкой API набора данных и упорядочением в Spark SQL?

Сортировка по Spark SQL приводит к узкой зависимости. Сортировка API набора данных и упорядочение...

Vinay K L / 13 февраля 2019

0 голосов

0 ответов

утверждение не выполнено: нет плана для MetastoreRelation ext_sub_cust_profile

Я получаю следующую проблему, когда присоединяюсь к 2 DF в потоковой передаче искры.Не могли бы вы...

Indira / 13 февраля 2019

0 голосов

1 ответ

Преобразования в искровом потоке занимают больше времени, даже если есть 0 сообщений

У меня серьезная проблема с производительностью искрового потока.Для 10-секундного интервала...

Indira / 13 февраля 2019

0 голосов

0 ответов

Каков наиболее эффективный способ агрегирования исторических строк за интервал времени определенной группы?

Я хочу вычислить агрегаты транзакций в Scala Spark.Так, например, среднее значение всех транзакций...

Robin Vu / 13 февраля 2019

0 голосов

0 ответов

Spark mapGroupsWithState триггер

Я использую Spark Structured Streaming в Databricks.Мой код выглядит так: rawEvents .as[EventRow]

guiferviz / 13 февраля 2019

0 голосов

1 ответ

Собрать данные столбца DataFrame в Json

У меня есть DataFrame с двумя столбцами в качестве «ключа»: id1 и id2: val df1 = Seq( (1, 11,...

user811602 / 13 февраля 2019

0 голосов

2 ответов

Сгруппировать и вычесть Spark Scala

У меня есть датафрейм, как показано ниже: group value B 2 B 3 A 5 A 6 Теперь мне нужно вычесть...

LUZO / 13 февраля 2019

0 голосов

1 ответ

StreamingQueryException: текстовый источник данных поддерживает только один столбец

Я знаю, что этот вопрос уже задавался несколько раз, но ни один из ответов не помог в моем случае....

dexter007 / 13 февраля 2019

0 голосов

1 ответ

Почему RDD to JSON удаляет фактическое упорядочение данных?

Я пытаюсь создать JSON из моего фрейма данных pyspark.Я вижу в моем фрейме данных данные...

Shankar Panda / 13 февраля 2019

0 голосов

1 ответ

Как разбить столбцы на метки и функции в pyspark?

Я изучаю PySpark.Из https://spark.apache.org/docs/2.2.0/ml-pipeline.html, есть пример: from pyspark

Feng Chen / 13 февраля 2019

0 голосов

1 ответ

Spark Advanced Window с динамическим последним

Проблема: учитывая, что данные временного ряда, которые являются потоком кликов по активности...

Arghya Saha / 13 февраля 2019

0 голосов

0 ответов

Есть ли у Spark ограничение на количество одновременно загружаемых файлов?

Я использую следующий код для загрузки данных из HDFS: spark .read .option("header",...

Miguel A. Friginal / 13 февраля 2019