Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Удалить дубликаты только из одной искры фрейма данных

У меня есть 2 кадра данных. df1: |AusID|ProjectId| +-----+---------- |529 |20034 | |973 |20035 |...

Waqar Ahmed / 27 июня 2018

0 голосов

1 ответ

фильтр на отметке времени искры не работает в диапазоне, превышающем день

Я работаю с версией Pyspark 2.3.0. я фильтрую фрейм данных в столбце метки времени. | - requestTs:...

sparkly / 27 июня 2018

0 голосов

2 ответов

Макс в оконных функциях

Входной DF: id . sub_id . id_created . id_last_modified sub_id_created . lead_ 1 . 10 12:00 7:00...

vikky / 27 июня 2018

0 голосов

1 ответ

добавить префикс к элементам spark rdd

В моем rdd есть два строковых элемента: «53 45 61», «0 1 2». Я хотел бы сжать и отобразить его...

unchained / 27 июня 2018

0 голосов

1 ответ

Преобразование org.apache.spark.mllib.linalg.Matrix для запуска фрейма данных в Scala

У меня есть входной фрейм данных input_df как: +---------------+--------------------+...

PRIYA M / 26 июня 2018

0 голосов

1 ответ

Как узнать, что нового и что изменилось при сравнении двух фреймов данных в pyspark?

У меня есть два кадра данных (более 1 млн записей). Только ~ 10% строк отличаются. Я знаю, как...

max04 / 26 июня 2018

0 голосов

0 ответов

как загрузить файл CSV, если несколько столбцов содержат несколько запятых между ними с помощью sparksql 1.6v

как загрузить файл CSV, если несколько столбцов содержат несколько запятых между ними с...

Raj Kamal / 26 июня 2018

0 голосов

1 ответ

Spark Dataframe: пользовательская функция в окне

У меня есть DataFrame df со столбцом, который содержит значения Double. Мне удалось вычислить...

Nakeuh / 26 июня 2018

0 голосов

2 ответов

Как уменьшить несколько строковых значений до предопределенных категорий в столбце

Я хотел бы уменьшить значения определенного столбца в кадре данных на основе предварительно...

Andreyn / 26 июня 2018

0 голосов

2 ответов

Конвертировать массив в массив данных со столбцами и индексом в Scala

Изначально у меня есть матрица 0.0 0.4 0.4 0.0 0.1 0.0 0.0 0.7 0.0 0.2 0.0 0.3 0.3 0.0 0.0 0.0...

PRIYA M / 26 июня 2018

0 голосов

0 ответов

как конвертировать датафрейм в BlockMatrix в pyspark

Я пытаюсь вычислить матрицу сходства пользователей по их метаданным.После этого вопроса я нашел...

Aziz Ilyosov / 26 июня 2018

0 голосов

1 ответ

Почему каждый ряд должен быть уникальным?

Я читаю исходный код spark.sql.execution.datasources.jdbc.JDBCRelation. Вот комментарий к исходному...

John Hass / 26 июня 2018

0 голосов

0 ответов

Динамический путь вывода для разделенных файлов паркета в Spark

Мы используем MapR FS со скользящими томами, и необходимо выровнять файлы секционированного...

ChernikovP / 25 июня 2018

0 голосов

0 ответов

UDF работает на локальном, но не на исполнителе

У меня есть следующая функция: def timestampConverter(dt: String): Option[Int] = { val timeStamp =...

Tomasz Krol / 25 июня 2018

0 голосов

1 ответ

как обрабатывать недостающие типы объектов json при чтении JSON в DF в искре

как обрабатывать недостающие типы объектов JSON при чтении JSON в DF в искре в класс case case...

Vamsi / 25 июня 2018

0 голосов

1 ответ

доступ к свечам из RelationalGroupedDataset

Обычный искровой фрейм данных позволяет получить доступ к sparksession через df.sparksession class...

Georg Heiler / 25 июня 2018

0 голосов

2 ответов

Удалите несколько пробелов одним пробелом в Spark SQL

У меня есть DataFrame, созданный с помощью HiveContext, где один из столбцов содержит записи вроде:...

Rajdip / 25 июня 2018

0 голосов

2 ответов

объединение двух Rdds с несколькими значениями и добавление дополнительного значения на основе объединения в Pyspark?

Я создал 2 RDD's, как показано ниже: rdd1 = sc.parallelize([(u'176',...

Sai / 25 июня 2018

0 голосов

1 ответ

Новый столбец получает значение Null

У меня есть следующий DataFrame df +-----------+-----------+-----------+...

ScalaBoy / 25 июня 2018

0 голосов

2 ответов

Как я могу добавить в тот же файл в HDFS (спарк 2.11)

Я пытаюсь сохранить потоковые данные в HDFS с помощью SparkStreaming, но он продолжает создавать в...

andani / 25 июня 2018

0 голосов

1 ответ

Каждый запрос занимает больше времени, используя структурированный поток с Spark

Я использую Spark 2.3.0, Scala 2.11.8 и Kafka, и я пытаюсь записать в файлы паркета все сообщения...

Eric Bellet / 25 июня 2018

0 голосов

1 ответ

Конвертировать Spark Scala оператор объединения в Python

Мне нужно преобразовать следующее выражение scala в python: scala> a.join(b, a("key")...

Gerrie van Wyk / 25 июня 2018

0 голосов

2 ответов

Разбор файла JSON определенного формата Struct of Array of Structs в искровой фрейм данных

Мой Json: {"apps": {"app": [{"id": "id1","user":...

PeaceFirst / 25 июня 2018

0 голосов

0 ответов

Spark запрашивает 100 миллиардов строк данных изasticsearch очень медленно

Недавно я использовал spark 2.2 для запроса огромного кластера эластичного поиска с 3 узлами и 1000...

AI Joes / 25 июня 2018

0 голосов

0 ответов

Каков наилучший вариант для генерации порядковых номеров в коде Spark (Scala)?

Каков наилучший способ реализации ROW_NUMBER (генератор последовательности) в программе Spark для...

Arvind Kumar / 25 июня 2018