Вопросы с тегом апаш-искра

0 голосов

1 ответ

Добавьте пустой столбец между ними при выборе столбцов в кадре данных (Spark)

Я пытаюсь добавить пустой столбец между двумя столбцами в операторе выбора данных. Используя...

Yash_spark / 29 марта 2019

0 голосов

0 ответов

Каков наилучший способ справиться с большим количеством наборов данных различного типа (тематические классы)

У меня более 50 разных классов, и каждый из них привязан к разному источнику паркета val cc1ds =...

rio / 29 марта 2019

0 голосов

1 ответ

Как перебрать данные кадра без конвертации в набор данных в искре?

У меня есть фрейм данных, через который я хочу перебрать, но я не хочу конвертировать фрейм данных...

saurabh kumar / 28 марта 2019

0 голосов

1 ответ

rdd.mapPartitions для возврата логического значения из udf в Spark Scala

Я использую Scala 2.11 с Spark 2.1 У меня есть MutableList [String], определенный как переменная...

Nick / 28 марта 2019

1 голос

1 ответ

Как избежать перемешивания в SortMerge Join на многораздельном столбце?

Мы получили два набора данных, которые были сохранены следующим образом: Набор данных A: datasetA

lsn24 / 28 марта 2019

1 голос

1 ответ

Как сгруппировать записи, которые находятся в пределах определенного интервала времени, используя Spark Scala или sql?

Я бы хотел сгруппировать записи в scala, только если они имеют одинаковый идентификатор и их время...

whodat / 28 марта 2019

0 голосов

2 ответов

Переименовать поля с одинаковыми именами в SPARK

Я использую JSON с такими же именами полей.Как я могу переименовать в искра dataframe.пожалуйста,...

Holmes / 28 марта 2019

0 голосов

0 ответов

Разрушение родословной СДР без использования HDFS

Я запускаю искровое приложение на экземплярах Amazon Spot. В конце я экспортирую свои результаты в...

ilcord / 28 марта 2019

0 голосов

0 ответов

Искра DataFrame, за исключением исключения функции

Я пытаюсь реализовать функцию удаления для паркета при использовании, кроме функции, я получаю...

jaimin03 / 28 марта 2019

1 голос

0 ответов

Проблема с подключением к свече в rstudio с помощью sparklyr

Я пытаюсь установить подключение к spark через Rstudio, используя пакет sparklyr, но выдает мне эту...

Juan David Ossa Gomez / 28 марта 2019

1 голос

2 ответов

Суммируйте столбцы информационного кадра Spark и создайте другой информационный кадр

У меня есть кадр данных, как показано ниже - Я пытаюсь создать другой фрейм данных из этого,...

van_d39 / 28 марта 2019

3 голосов

2 ответов

фиктивные функции искровых колонн в scala

Мой код использует monotonically_increasing_id функция scala val df = List(("oleg"),...

Oleg Pavliv / 28 марта 2019

2 голосов

1 ответ

создать Spark DataFrame из вложенного массива элемента структуры?

Я прочитал файл JSON в Spark. Этот файл имеет следующую структуру: root |-- engagement: struct...

J-kram / 28 марта 2019

0 голосов

0 ответов

Есть ли способ использовать динамическое индексирование через "es.index.write = {index} / type" в методе writeStream при потоковой передаче с искрой?

Я использую структурированную потоковую передачу Spark для рекурсивного чтения многих файлов и их...

Fahad Khan / 28 марта 2019

0 голосов

0 ответов

Можно ли программно добавить пулы планировщика Fair в Spark?

Я разрабатываю приложение, в котором несколько пользователей используют один и тот же SparkContext...

miguel0afd / 28 марта 2019

0 голосов

1 ответ

Объединить заголовок, чтобы иметь только один заголовок в файле

import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, FileUtil,...

kn3l / 28 марта 2019

0 голосов

1 ответ

Получить отдельные строки из RDD [type] в Scala Spark

Допустим, у меня есть СДР в формате, подобном этому СДР [сотрудник], и примеры данных следующие: -...

Pinnacle / 28 марта 2019

0 голосов

0 ответов

Как сравнить 2 кадра данных в pyspark на основе динамических столбцов

У меня есть 2 фрейма данных, которые я обрабатываю в pyspark из разных источников. Эти кадры данных...

ranjith / 28 марта 2019

2 голосов

2 ответов

Ошибка при чтении файла CSV в Spark - Scala

Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время...

Dasarathy D R / 28 марта 2019

0 голосов

1 ответ

Spark / Scala обновить значение переменной на другой карте?

В Spark у меня есть closest: org.apache.spark.rdd.RDD[(Int, (breeze.linalg.Vector[Double], Int))] =...

Jiapeng Zhang / 28 марта 2019

0 голосов

1 ответ

Перекошенный в Искре

У меня есть набор данных, который я хочу разделить по определенному ключу (clientID), но некоторые...

Narfanator / 27 марта 2019

0 голосов

1 ответ

Показать конкретное значение в искровой sql

вот моя часть Json, которую я преобразовал в Df {"business_id":...

sudarshan / 27 марта 2019

2 голосов

1 ответ

Как преобразовать последовательную числовую обработку данных таблицы Cassandra в параллельную в Spark?

Мы выполняем некоторое математическое моделирование данных из таблицы Cassandra с использованием...

abhishek / 27 марта 2019

1 голос

1 ответ

Выходной файл паркетного файла - Spark Структурированная потоковая передача

Интересно, что (и как изменить) вызывает Spur Sturctured Streaming Query (с настроенным выходным...

mekmek / 27 марта 2019

0 голосов

0 ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как периодически выполнять запрос MSCK REPAIR TABLE database.table неблокирующим способом?...

Tom Rijntjes / 27 марта 2019