Вопросы с тегом апаш-искра

0 голосов

1 ответ

Получить примеры строк, которые удаляются фильтром из фрейма данных spark

Предположим, у меня есть искровой фрейм данных df с некоторыми столбцами (id, ...) и строка...

lmcoy / 05 июля 2018

0 голосов

1 ответ

Конвертируйте фрейм данных в матрицу Spark MLLIB в Scala

У меня есть кадр данных Spark с именем df в качестве ввода: +---------------+---+---+---+---+...

PRIYA M / 05 июля 2018

0 голосов

1 ответ

Получить не нулевые значения в обернутом массиве

У меня есть Wrapped Array, и я хочу получить значения не нулевые, когда я запрашиваю с LATERAL VIEW...

noobeerp / 05 июля 2018

0 голосов

0 ответов

Группировка по отдельному идентификатору и обработка каждой группы с помощью карты или foreach Spark Scala

Люди, Требуется предложение и помощь в группировке логики и обработке более 10 миллионов записей....

Trust_me / 05 июля 2018

0 голосов

1 ответ

Функции разделов в искровых скалах

DF: ID col1 . .....coln.... Date 1 1991-01-11 11:03:46.0 1 1991-01-11 11:03:46.0 1 1991-02-22...

vikky / 05 июля 2018

0 голосов

1 ответ

Поделиться SparkContext между несколькими файлами в одном проекте

Я новичок в Spark и Scala и хотел знать, могу ли я использовать тот же sparkContext, который я...

red27bull / 05 июля 2018

0 голосов

0 ответов

Оптимизация скрипта Spark на локальный

Я потянул свои волосы, пытаясь оптимизировать скрипт Spark, и он все еще невыносимо медленный (24...

Dimebag / 05 июля 2018

0 голосов

5 ответов

Как рассчитать процент в кадре данных Spark SQL?

У меня есть набор данных карты aadhaar. Мне нужно найти три верхних штата, где процент карт...

Ankit / 04 июля 2018

0 голосов

1 ответ

Как преобразовать файлы журнала искры в один файл CSV

У меня есть коллекция файлов журнала приложений Spark, я хочу, чтобы каждый файл Имя приложения,...

Mohammed Alrudaini / 04 июля 2018

0 голосов

2 ответов

Spark: преобразовать в исходный RDD после reduByKey

У меня есть следующий СДР, представляющий данные о продажах: val rddSales:RDD[((String, String),...

samba / 04 июля 2018

0 голосов

2 ответов

Удалить оба дубликата строки

Добрый день, коллеги. У меня большой набор данных (около 237 000 000 строк). Есть много столбцов....

Александр Шаповалов / 04 июля 2018

0 голосов

0 ответов

Настройка отдельного кластера Spark на двух разных компьютерах с Windows

Я хотел бы настроить автономный кластер apache spark, используя два разных компьютера (windows 10)...

drkostas / 04 июля 2018

0 голосов

1 ответ

Не удалось создать экземпляр из фабричного метода SparkRunner # fromOptions

Я получаю следующее исключение в java в Apache Beam, используя Spark в качестве бегуна. Я...

piyush ratan / 04 июля 2018

0 голосов

1 ответ

Доступ к batchDuration в StreamingContext с использованием публичного API?

Я пытаюсь получить доступ к полю batchDuration в StreamingContext. Я не вижу общедоступного API,...

Majid Azimi / 04 июля 2018

0 голосов

1 ответ

как преобразовать вложенную таблицу mongodb в спрей данных

У меня есть вложенный talbe mongodb и его структура документа, такая как: { "_id" :...

Lambert / 04 июля 2018

0 голосов

2 ответов

Spark: получить метку времени для окончания действия / записи

У меня есть конвейер Spark с 3 DataFrame.write, и я хочу вывести временную метку для каждой записи....

Dimebag / 04 июля 2018

0 голосов

2 ответов

Преобразование столбца collect_list в столбец другого типа данных с использованием UDF в потоковой передаче искры

Требуется объединить данные из 2 потоковых источников, а затем уменьшить их для того же ключа и...

Tommy Tan / 04 июля 2018

0 голосов

1 ответ

Apache Spark: не удается разрешить конструктор StreamingContext

Я пытался установить StreamingContext в моей программе, но я не могу понять, что происходит. Я...

grantedfour / 04 июля 2018

0 голосов

2 ответов

Обновление кэшированного кадра данных Spark после заданной частоты

Я разрабатываю решение SparkStreaming, в котором таблица кустов кэшируется как Dataframe, а затем...

sanjeev kumar / 04 июля 2018

0 голосов

2 ответов

Spark DStream от Kafka всегда начинается с самого начала

Посмотрите на мой последний комментарий принятого ответа для решения Я настроил DStream так: val...

rabejens / 04 июля 2018

0 голосов

2 ответов

Потоковое объединение потоков без предиката равенства не поддерживается

Я использую Spark 2.3 и пытаюсь объединить два потока данных. Мой левый и правый потоки имеют...

DataGeek / 04 июля 2018

0 голосов

3 ответов

Создать новый столбец с массивом диапазона чисел

Поэтому мне нужно создать массив чисел, перечисляющий от 1 до 100 в качестве значения для каждой...

ChiMo / 04 июля 2018

0 голосов

0 ответов

Объединить файлы разделов ORC на диске?

Я использую Spark 2.3 для преобразования некоторых данных CSV в ORC для использования с Amazon...

Marty / 04 июля 2018

0 голосов

1 ответ

Спарк topN значения по группам

У меня есть фрейм данных с подробной информацией о событии, я пытаюсь получить топ-5 недавно...

Masterbuilder / 04 июля 2018

0 голосов

1 ответ

прочитать данные из корневой папки HDFS и добавить их в Spark DF

Я читаю файлы JSON из папки HDFS в Spark Scala Код: val path = "hdfs://year/month/date/*"...

vikky / 04 июля 2018