Вопросы с тегом апаш-искра

0 голосов

0 ответов

Работа с несколькими темами Кафки

Я интегрировал Spark Structured Streaming с Kafka, в котором я слушаю 2 темы def main(args:...

syv / 17 сентября 2018

0 голосов

0 ответов

Как настроить кластер пряжи с искрой?

У меня есть 2 машины с оперативной памятью 32 ГБ и 8 ядрами на каждой машине. Итак, как я могу...

vikram reddy / 17 сентября 2018

0 голосов

0 ответов

как применить функцию фильтра к org.apache.spark.rdd.RDD [Array [Byte]]

После использования искры для загрузки экономичных файлов: val rdd1 = sc

richardj / 17 сентября 2018

0 голосов

1 ответ

Как модель Spark обрабатывает векторный столбец?

Как метод в искре будет угрожать векторной колонке ассемблера?Например, если у меня есть столбец...

Gregorius Edwadr / 17 сентября 2018

0 голосов

1 ответ

Используемая и кэшированная память в Spark

Я хотел бы знать, использует ли spark кэшированную память Linux или используемую память Linux,...

veve / 16 сентября 2018

0 голосов

1 ответ

перераспределение искры неравномерно, все еще перекошено

Как я могу форсировать (в основном) равномерное распределение? Я хочу выполнить что-то вроде: df

Georg Heiler / 16 сентября 2018

0 голосов

3 ответов

Используйте Spark Scala для преобразования плоских данных во вложенный объект

Мне нужна помощь в преобразовании плоского набора данных во вложенный формат с помощью Apache Spark...

Rushy Nova / 16 сентября 2018

0 голосов

0 ответов

Загрузка файла в спарк с использованием разделов по входным папкам

У нас есть входные файлы (небольшие файлы .gz), организованные в структуре папок ниже. USER1...

Arun Y / 16 сентября 2018

0 голосов

0 ответов

Spark FlatMapGroupsWithStateFunction throws не может разрешить named_struct () из-за несоответствия типов данных SerializeFromObject

Я использую FlatMapGroupsWithStateFunction в моем приложении для потоковой передачи....

Robin Kuttaiah / 16 сентября 2018

0 голосов

0 ответов

Spark работа для агрегирования данных о Кассандре

Я новичок в искре.У меня есть следующая таблица в Кассандре: CREATE TABLE cust_actions ( orgid text...

Tarun / 16 сентября 2018

0 голосов

0 ответов

Почему я вижу OOM в моем задании на искру, когда общий размер ввода увеличивается, но размер ввода для одной задачи остается неизменным?

Я запускаю искровое задание, которое получает данные, уже разделенные на разделы размером 10 МБ...

user10368401 / 15 сентября 2018

0 голосов

1 ответ

Как выбрать кластер kMean как новый Dataframe в Spark

У меня есть фрейм данных с несколькими миллионами записей, я использовал кластеризацию k-Means и...

Vítor Batista / 15 сентября 2018

0 голосов

0 ответов

Spine Streaming Kinesis на EMR выдает «Ошибка при сохранении блока в Spark»

У нас есть потоковое приложение Spark (2.3.1), работающее через EMR (5.16), получающее данные от...

gonzalodiaz / 15 сентября 2018

0 голосов

2 ответов

ReduceByKey на Итерируемое значение кортежей

Я пытаюсь подсчитать появления определенных предметов на определенную дату. Структура моего ввода...

pirox22 / 15 сентября 2018

0 голосов

2 ответов

Как вывести сгенерированный Java-код на стандартный вывод?

Используя DataFrames в Apache Spark 2. +, есть ли способ получить базовые RDD и вывести...

Midiparse / 15 сентября 2018

0 голосов

1 ответ

Spark Structured Streaming Kafka Интеграция Управление смещением

В документации написано: enable.auto.commit: источник Kafka не фиксирует никакого смещения....

MaatDeamon / 15 сентября 2018

0 голосов

1 ответ

искры, читающие недостающие колонки в паркете

У меня есть паркетные файлы, которые мне нужно прочитать со спарк. В некоторых файлах отсутствует...

Nipun / 15 сентября 2018

0 голосов

1 ответ

Spark Shell - как узнать, появлялось ли максимальное количество раз в файле

Найти userID пользователя / ов, которые / дали максимальную обратную связь с фильмами из текстового...

kuldip / 15 сентября 2018

0 голосов

2 ответов

Spark Dataset / Dataframe объединяют NULL ключ перекоса

Работая с объединениями Spark Dataset / DataFrame, я столкнулся с длительным запуском и не смог...

Mikhail Dubkov / 15 сентября 2018

0 голосов

0 ответов

не удалось подготовить логику для поиска чисел между файлом .dat в оболочке spark

Найдите те movie_Ids из файла оценок, которые не получили оценки ниже 4 любым пользователем.Файл...

kuldip / 15 сентября 2018

0 голосов

1 ответ

Как объединить два фрейма данных pyspark для операции Arraytype?

У меня есть два кадра данных, A и B. У каждого есть столбец с именем 'names', а этот...

J. Shawn / 15 сентября 2018

0 голосов

1 ответ

Скала Спарк потоковая кафка

Я создал образец темы в kafka и пытаюсь использовать содержимое в spark, используя приведенный ниже...

Aish Mahesh / 14 сентября 2018

0 голосов

1 ответ

Zeppelin: не показывает базу данных / таблицы Hive в HDP3.0

Я установил Hortonworks hdp3.0 и также настроил Zeppelin. Когда я использую spark или sql, Zeppelin...

Shan / 14 сентября 2018

0 голосов

1 ответ

искровая запись: источник данных CSV не поддерживает нулевой тип данных

У меня ошибка в моем коде.Код сбрасывает некоторые данные в базу данных Redshift. После некоторых...

Oleg Pavliv / 14 сентября 2018

0 голосов

1 ответ

Передача конфиденциальных конфигурационных файлов конфигурации в DataProcSparkOperator

Я использую Google dataproc для отправки заданий на спарк и Google Cloud Composer для их...

scalacode / 14 сентября 2018