Вопросы с тегом апаш-искра

0 голосов

1 ответ

Распределение ресурсов с помощью искры и пряжи

Я использую Zeppelin 0.7.3 с Spark 2.3 в режиме клиента пряжи. Мои настройки: Spark: spark.driver

Simon / 28 июня 2018

0 голосов

1 ответ

запрос занимает много времени "выбор" ничего

У меня есть запрос, который я выполнял в экономном порядке, который занимает очень много времени. Я...

Dotan / 28 июня 2018

0 голосов

2 ответов

Количество строк, содержащих подстроку в DataFrame

Я попытался это решение, чтобы проверить, если строка в подстроке: val reg = ".*\\[CS_RES\\]

vero / 28 июня 2018

0 голосов

1 ответ

Как решить перегруженный регистр значений метода с альтернативами, UDF Spark scala

я пытаюсь получить последний токен полного пути к файлу, и мой код выглядит как val testUdf = spark

Imi007 / 28 июня 2018

0 голосов

1 ответ

как исправить карту фильтра и функцию mapWithState

Я - новый корд Scala, у меня есть функция flatMap, которая возвращает объект FlatMappedDStream, это...

Zhang Xin / 28 июня 2018

0 голосов

1 ответ

Не удалось запустить искровое задание на кластере пряжи: исключение сбоя подключения

Я запускаю простое задание зажигания на кластере YARN и мою конфигурацию для yarn-site.xml...

arcticOak2 / 28 июня 2018

0 голосов

2 ответов

Меньшая или равная ошибка синтаксиса сравнения

Мой UDF сравнивается, если разница во времени между двумя столбцами не превышает 5 дней. Если...

Dan / 28 июня 2018

0 голосов

1 ответ

Промежуточная сумма между двумя отметками времени в писпарке

У меня есть данные в следующем формате: +---------------------+----+----+---------+----------+ |...

Shrashti / 28 июня 2018

0 голосов

1 ответ

Почему перераспределение Spark приводит к MemoryOverhead?

Так что вопрос в теме. Я думаю, что я не правильно понимаю работу передела. По моему мнению, когда...

jk1 / 28 июня 2018

0 голосов

3 ответов

Запустите kubernetes pod memory в зависимости от объема данных работы

Есть ли способ динамически масштабировать объем памяти модуля Pod в зависимости от размера задания...

cryanbhu / 28 июня 2018

0 голосов

2 ответов

Spark dataframe na.fill тип логического столбца

Я могу заполнить столбцы числового и строкового типа, используя: masterDF = masterDF.na.fill(-1)...

Sudheer Palyam / 28 июня 2018

0 голосов

1 ответ

Spark потребляет больше кучи памяти. это правда?

По отношению к памяти кучи. Spark потребляет больше кучи памяти сравнительного Hadoop. Пожалуйста,...

user8106134 / 28 июня 2018

0 голосов

0 ответов

искровой раздел из-за сбоев памяти

У меня есть задание Spark 2.2, написанное в pyspark, которое пытается прочитать 300BT данных...

Costas Piliotis / 27 июня 2018

0 голосов

1 ответ

Spark with yarn-client на кластере с несколькими узлами HDP запускает исполнителей только на одном узле

Я установил многоузловой кластер HDP с Spark и Yarn на EC2 Все узлы являются узлами данных. Node3...

tricky / 27 июня 2018

0 голосов

0 ответов

Spark объединяет несколько клавиш очень медленно

Я реализовал внутреннее соединение, используя Java API Spark. Ожидается, что из двух наборов данных...

anukuls / 27 июня 2018

0 голосов

0 ответов

Загрузочный файл Spark Java API с пробелами в пути

У меня проблема при попытке загрузить файл ORC / Parquet в spark (2.2), который находится по пути,...

Mareike Hoeger / 27 июня 2018

0 голосов

2 ответов

Искра: где не работает должным образом

У меня есть 2 набора данных, и я хочу создать набор данных объединения, поэтому я сделал...

Svg_af / 27 июня 2018

0 голосов

3 ответов

Искра при сбое контейнера для пряжи

Для справки: я решил эту проблему, добавив Netty 4.1.17 в hadoop / share / hadoop / common...

wordsmith / 27 июня 2018

0 голосов

1 ответ

Какую версию hadoop-aws я должен использовать

Я запускаю искровые задания на Yarn на EMR 5.14 (hadoop 2.8.3). Могу ли я использовать улучшенную...

Yann Moisan / 27 июня 2018

0 голосов

1 ответ

Потеря данных Spark 2.1 -кафка брокер 0.8.2.1 потоковая

1 потоковое и Kafka брокер версии 0.8.2.1, у меня есть отдельные серверы для спарк и кафка на AWS....

SLU / 27 июня 2018

0 голосов

0 ответов

Получите vaue столбца из разных рядов другого столбца в потоковой передаче искры

У меня искровой структурированный поток, как - Обратите внимание, что есть и другие столбцы, но я...

Ishan / 27 июня 2018

0 голосов

1 ответ

Список фреймов данных в RDD в отдельном разделе

У меня есть список искровых фреймов данных, и я должен выполнить с ними некоторую операцию Я хочу...

Gladiator / 27 июня 2018

0 голосов

1 ответ

Spark Streaming с Neo4j зависает при работе с Docker

Я создал образ докера моего приложения, когда я просто запускаю его из скрипта bash, он работает...

Cassie / 27 июня 2018

0 голосов

0 ответов

Удалить дубликаты только из одной искры фрейма данных

У меня есть 2 кадра данных. df1: |AusID|ProjectId| +-----+---------- |529 |20034 | |973 |20035 |...

Waqar Ahmed / 27 июня 2018

0 голосов

0 ответов

Как установить ядро драйвера в режиме Spark Cluster?

Я видел много статей о памяти / ядрах / экземплярах исполнителя, но я все еще не понимаю, что мне...

Yong Hyun Kwon / 27 июня 2018