Вопросы с тегом апаш-искра

0 голосов

0 ответов

Как создать WindowSpec для подсчета строк по типу до и после текущей строки?

Мне пришлось реализовать пакет Windowing, ориентированный на события, с различным количеством имен...

Gepsens / 04 сентября 2018

0 голосов

4 ответов

Как завершить работу в автономном и клиентском режиме?

Я использую spark-submit для запуска задания, которое, за некоторыми исключениями, заблокировано,...

Leyla Lee / 03 сентября 2018

0 голосов

1 ответ

Killing Oozie Координатор не убивает последующую искровую работу

Когда я пытался убить искровую работу, которая вызывается из уродливой работы, ее не убивают. Это...

whoisthis / 03 сентября 2018

0 голосов

0 ответов

Как распараллелить Spark на Кафку пишет

Производитель Kafka возвращает Java Future (или вы можете использовать обратный вызов) в любом...

gotch4 / 03 сентября 2018

0 голосов

2 ответов

Почему компилятор Scala не работает с аннотацией «no»: _ * 'здесь разрешено », когда Row принимает varargs?

Я хотел бы создать Row с несколькими аргументами, не зная их числа. Я написал что-то вроде этого в...

BMerliot / 03 сентября 2018

0 голосов

1 ответ

Возможно ли, чтобы работник был координатором и отправлял других работников в Спарк?

Я новичок в Spark, и у меня есть проект, в котором cluster есть *1003*, который собирает данные из...

Tmpoul / 03 сентября 2018

0 голосов

0 ответов

другая система каротажа для искрового применения

В настоящее время у меня работает спарк 2.x с пряжей. AFAIK, spark 2.x использует log4j 1.x в...

humbletrader / 03 сентября 2018

0 голосов

1 ответ

Нельзя использовать временные метки для запросов на индексирование / обновление в ES 6.x и выше. Пожалуйста, удалите настройку [es.mapping.timestamp]

Я использую Spark Structured Streaming для записи в Elasticsearch 6.2.0 Sink: dataDf .writeStream

Chris Snow / 03 сентября 2018

0 голосов

1 ответ

Как удалить '\' из строки в sparklyr

Я использую sparklyr и у меня есть искровой фрейм данных со столбцом word, который содержит слова,...

Vincent / 03 сентября 2018

0 голосов

2 ответов

как применять объединения в spark scala, когда у нас есть несколько значений в столбце объединения

У меня есть данные в двух текстовых файлах как file 1:(patient id,diagnosis code)...

pooja / 03 сентября 2018

0 голосов

0 ответов

Как отладить проблему с подключением Spark?

Мы установили кластерный сервер с 4 серверами с дистрибутивом RedHat. Если мы запустим типичную...

Borja Rioja Mata / 03 сентября 2018

0 голосов

0 ответов

Как передать JSON из Spark в AngularJS в Apache Zeppelin

Я использую ноутбук Apache Zeppelin, и мне нужно передать данные JSON из spark в AngularJS с...

thanasis keramas / 03 сентября 2018

0 голосов

0 ответов

Spark читает failfast csv и перечитывает снова в блоке catch

У меня следующий алгоритм: чтение из CSV-файла в отказоустойчивом режиме с указанной схемой. Если...

Andrii Sushko / 03 сентября 2018

0 голосов

1 ответ

Искра org.apache.spark.sql.catalyst.analysis.UnresolvedException ошибка загрузки таблицы Hive

При попытке загрузить данные из набора данных в таблицу Hive выдается ошибка: org.apache.spark.sql

Sayantan Sarkar / 03 сентября 2018

0 голосов

2 ответов

Как определить ключ раздела / столбец с помощью Spark

Предположим, я использую partitionBy для сохранения некоторых данных на диск, например, по дате,...

samthebest / 03 сентября 2018

0 голосов

1 ответ

DataPrame Pyspark присоединяется неправильно, когда есть несколько вложенных полей

У меня есть фрейм данных с такой схемой: root |-- docId: string (nullable = true) |-- Country:...

Nitesh Gupta / 03 сентября 2018

0 голосов

1 ответ

Zeppelin: нет свободного места ни в одном из локальных каталогов

Я сохраняю фрейм данных в s3, используя блокнот zeppelin. df=spark.sql("select * from...

bob / 03 сентября 2018

0 голосов

1 ответ

Не удалось получить транспорт из транспортного пула для хоста

Я пытаюсь записать в приемник IBM Compose Elasticsearch из Spark Structured Streaming на IBM...

Chris Snow / 03 сентября 2018

0 голосов

1 ответ

Какая операция быстрее: filter или withColumn, когда?

Какой из них более производительный? filter подход val df1 = df .filter('operation === true)

dataProcs / 03 сентября 2018

0 голосов

0 ответов

Присоединение DStream и RDD с контрольными точками

Я боролся за объединение DStream и RDD. Чтобы установить сцену: Искра - 2.3.1 Python - 3.6.3 РДД Я...

DataWookie / 03 сентября 2018

0 голосов

1 ответ

Spark: Как разбить тип структуры на несколько столбцов?

Я знаю, что этот вопрос задавался много раз на Переполнении стека и был удовлетворительным ответом...

MojoJojo / 03 сентября 2018

0 голосов

0 ответов

Применимы ли свойства spark.streaming.backpressure. * К структурированной потоковой передаче Spark

Насколько я понимаю, структурированная потоковая передача Spark основана на Spark SQL, а не на...

MaatDeamon / 02 сентября 2018

0 голосов

1 ответ

Определяемая пользователем функция агрегирования в Spark для реализации процентили

Я пытаюсь написать udaf для вычисления значений percentile. Мне нужно написать пользовательскую...

SparkABC / 02 сентября 2018

0 голосов

1 ответ

Как вызвать основную функцию scala с аргументом в блокноте zeppelin

Я выполняю объект scala в блокноте zeppelin следующим образом, но получаю ошибку.

user8167344 / 02 сентября 2018

0 голосов

0 ответов

Получение исключения при чтении данных из JSON RDD

При выполнении следующего фрагмента кода я получаю исключение. Может кто-нибудь сказать мне, что не...

Ravi BS / 02 сентября 2018