Вопросы с тегом апаш-искра

0 голосов

1 ответ

Spark API: используйте значение столбца в операторе LIKE

В API свечей: column.like("only takes a static string with optional wildcards like %")...

Rimer / 10 июня 2019

0 голосов

1 ответ

Как я могу отфильтровать этот фрейм данных для значений! = 0

Ребята, у меня есть этот фрейм данных...

Jesus Zuñiga / 10 июня 2019

0 голосов

0 ответов

как метод buildscan вызывается внутри в собственном источнике данных spark

Я пишу пользовательский источник данных, который преобразует ответ, отправленный моим вызовом rest,...

shaifali goyal / 10 июня 2019

1 голос

0 ответов

Amazon EMR с Hadoop 3.1

Я пишу большой набор данных в формате Parquet в HDFS с использованием Spark, и в EMR он работает...

femibyte / 10 июня 2019

0 голосов

0 ответов

как убрать hdfs в менеджере пряжи

Все подчиненные узлы в кластере пряжи отслеживают блоки в hdfs blk_1073742325_1505.meta....

Raj / 10 июня 2019

0 голосов

0 ответов

Как заменить символ Ctrl + M из набора данных spark с помощью regexp_replace ()?

У меня есть набор данных Spark, в одном из столбцов которого в данных столбца присутствует символ...

aiman / 10 июня 2019

1 голос

0 ответов

Как создать данные для сложного типа структуры, типа массива структуры в Scala Python и HiveQL?

Как создать схему, DataFrame и загрузить 2-3 строки образцов данных, которые вписываются в эту...

user2458922 / 10 июня 2019

3 голосов

1 ответ

Задание Spark не выполняется при фильтрации сообщений kafka

Необходимо проверить, являются ли сообщения о событиях, отправленные на Kafka, действительными,...

Dejan Marić / 10 июня 2019

0 голосов

0 ответов

Не удалось найти класс LoginModule: org.apache.kafka.common.security.plain.PlainLoginModule

Среда: Spark 2.3.0, Scala 2.11.12, Kafka (Какая бы ни была последняя версия) У меня есть безопасная...

Sparker0i / 10 июня 2019

0 голосов

2 ответов

Как инициируются и запускаются потребители со структурированной потоковой передачей при чтении разделов кафки с несколькими разделами?

Если в теме kakfa имеется более одного раздела, в java эти экземпляры / потоки потребителя будут...

Shyam / 10 июня 2019

1 голос

1 ответ

Как справиться с небольшой проблемой файла в потоковой передаче с искрой?

У меня есть сценарий в моем проекте, где я читаю сообщения темы kafka, используя версию spark-sql-2

Shyam / 10 июня 2019

0 голосов

0 ответов

Объем памяти исполнителя постоянно растет при использовании Apache Beam 2.4.0 с Spark Streaming 2.3.1. Что просходит?

Я использую Apache Beam 2.4.0 с Spark Streaming 2.3.1, чтобы просто прочитать тему kafka и написать...

wuhuahe / 10 июня 2019

0 голосов

0 ответов

SparkAppHandle не работает при обновлении с Spark 1.6 до Spark 2.3

Во время работы Spark 1.6 мой SparkAppHandle работал нормально. Но после обновления до Spark 2.3...

Naman Agarwal / 10 июня 2019

1 голос

0 ответов

Изменить spark.memory.storageFraction

Я пытаюсь уменьшить значение spark.memory.storageFraction в коде так: sparkSession = (SparkSession

Shadowtrooper / 10 июня 2019

0 голосов

1 ответ

Убивая искру потоковой работы, когда нет активности

Я хочу прервать свою работу с потоковым воспроизведением, когда в течение определенного времени нет...

Srinivas / 10 июня 2019

0 голосов

2 ответов

Определите, как часто действие A является первым действием в сеансе

С учетом данных кадра Spark: val data = Seq( (1, 1, "A"), (1, 2, "A"), (1, 3,...

Joachim / 10 июня 2019

3 голосов

1 ответ

Как сравнить 2 столбца и объединить в Scala

Это мой текстовый файл, входящий в программу: Id Title Copy B2002010 gyh 1 D2001001 abc 12 M2003005...

Amel Bent / 09 июня 2019

0 голосов

1 ответ

Проблемы чтения фрейма данных PySpark в Pandas с колонками VectorUDT

У меня есть таблица PySpark, где многие столбцы имеют тип VectorUDT. Эти столбцы были созданы с...

Lowblow / 09 июня 2019

1 голос

2 ответов

Maven не находит установленные Spark libs с brew

Я новичок в Maven и Spark, и я хотел бы немного поиграть с ними обоими.Я на OSx, поэтому я...

Andrea Giordano / 09 июня 2019

0 голосов

1 ответ

Рассчитать последовательности постоянно увеличивающихся дат Spark

У меня есть датафрейм в Spark с именем столбца и датами. И я хотел бы найти все непрерывные...

Cassie / 09 июня 2019

1 голос

1 ответ

Столбец категорий на основе отдельного значения в DataFrame Spark

В моих исходных данных у меня нет ни одного столбца категории, по которому я могу сгруппировать...

Tarun Khaneja / 09 июня 2019

1 голос

1 ответ

Как развернуть искровую AlsModel в микросервис с пружинной загрузкой

Я хочу создать микросервис с использованием пружинной загрузки, который сможет предоставлять...

Kaojo / 08 июня 2019

1 голос

0 ответов

Как отобразить функцию RDD на каждый RDD в итераторе, возвращаемом mapPartitions

У меня есть DataFrame с идентификаторами документов doc_id, идентификаторами строк для набора строк...

Clay / 08 июня 2019

1 голос

1 ответ

ошибка искровой отправки. Причина: java.lang.ClassNotFoundException: kafka.DefaultSource

В моей программе spark у меня есть этот код: val df = spark.readStream .format("kafka")

Sparker0i / 08 июня 2019

0 голосов

1 ответ

Исключение в потоке "main" java.lang.IllegalStateException: Невозможно получить файлы по схеме 'spark' без активного SparkEnv

Я очень новичок в Spark и Cassandra, получил один образец от GitHub и попытался запустить...

Harini / 08 июня 2019