Вопросы с тегом апаш-искровой-SQL

0 голосов

1 ответ

Spark SQL объединение дает исключение памяти

У меня есть набор данных с примерно 500 тысячами строк и 20 столбцами. Данные разбиты на уровни,...

JBoy / 25 октября 2019

0 голосов

1 ответ

Что является заменой REGEXP_INSTR (функция Redshift) в SparkSQL?

REGEXP_INSTR Функция: выполняет поиск в строке шаблона регулярного выражения и возвращает целое...

AWSGeekCoder / 25 октября 2019

0 голосов

1 ответ

Spark RDD saveAsTextFile выдает java.io.IOException: Mkdirs не удалось создать

Я использую spark 1.6.3 и пытаюсь сохранить rdd как textFile, но получаю следующую ошибку. pRdd =...

tarun / 25 октября 2019

0 голосов

1 ответ

Хранит ли Spark DataFrame в памяти при загрузке из файла?

Если я создаю Dataframe следующим образом: val usersDF = spark.read

Gadam / 25 октября 2019

0 голосов

1 ответ

Разбор JSON в DataFrame Spark в новые столбцы

Фон У меня есть кадр данных, который выглядит следующим образом:...

Saining Li / 25 октября 2019

0 голосов

1 ответ

Как указать shema при создании фрейма данных из источника данных сокетов?

Я новичок в искре. Я передаю файлы журнала в следующем формате на порт 9999 - 2019-09-15 23:45:37...

Aniruddha Tekade / 24 октября 2019

0 голосов

0 ответов

Манипулировать интервалом запуска в искровой структурированной потоковой передаче

Для данного сценария я хочу отфильтровать наборы данных в структурированной потоковой передаче в...

anz / 24 октября 2019

0 голосов

0 ответов

Как ведет себя искра в этом типе Ascription в запросе выбора в Spark Dataframe

У меня есть следующие столбцы, которые я хочу выбрать динамически. поэтому у меня есть val...

whoisthis / 24 октября 2019

0 голосов

2 ответов

Округление значения Double без десятичных точек в искровом датафрейме

Я попытался округлить двойное значение без десятичных точек в кадре данных искры, но на выходе...

Antony / 24 октября 2019

0 голосов

1 ответ

Что является заменой оператора posix Redshift в SparkSQL?

Я выполняю следующую команду Redshift SQL, используя оператор POSIX (~) для сопоставления с...

AWSGeekCoder / 24 октября 2019

0 голосов

2 ответов

Как я могу преобразовать DF в строку / массив, а затем обратно в DF?

Я хочу сделать следующее: У меня есть DataFrame с двумя столбцами (ID, отметка времени), обе строки...

tenorules / 24 октября 2019

0 голосов

1 ответ

Избегание тайм-аутов при включении прямой трансляции

У меня есть небольшой DF, который довольно дорог для вычисления. Затем я широковещательно...

Terry Dactyl / 24 октября 2019

0 голосов

1 ответ

Разделить записи на основе разницы по месяцам

У меня есть требование генерировать строки, по 1 строке на каждый месяц, который происходит между 2...

marie20 / 24 октября 2019

2 голосов

1 ответ

Как рассчитать уникальный идентификатор сеанса на пользователя в минуту в наборе данных потока кликов с помощью Spark-SQL?

Представьте, что у нас есть набор данных clickstream, содержащий миллионы строк. И мы хотим...

pratiksadaphal / 24 октября 2019

0 голосов

1 ответ

Как использовать улей крюк в спарк sql

Я использую Hive (2.1.1) hook, как показано ниже: set hive.exec.post.hooks=com.test

Bo.hai / 24 октября 2019

1 голос

0 ответов

Как правильно обновить банку катализатора Spark SQL в кластере

Недавно я внес некоторые пользовательские изменения в модуль катализатора Spark SQL, чтобы избежать...

Bostonian / 24 октября 2019

0 голосов

1 ответ

Обходной путь для использования МЕЖДУ и УИЛКАРДОМ

У меня довольно большая таблица, которая содержит коды ICD10 (icd10_table). Я хочу получить кучу...

David / 23 октября 2019

0 голосов

0 ответов

Ошибка производительности Spark для данных, запрашиваемых из Phoenix / HBase

Я использую кластер Spark K-means на кластерах AWS EMR. Набор данных содержит 10 ^ 7 строк и 9...

Christopher Ferris / 23 октября 2019

0 голосов

0 ответов

Разбор вложенного json в apache spark, который содержит поля struct, array -> struct и array

Моя схема JSON содержит типы данных со Struct, Array, Struct и Array. Когда я сам разрываю это...

Yaswanth Kumar Alla / 23 октября 2019

0 голосов

0 ответов

Распакованный список файлов отключает опцию maxRecordsPerFile в контекстном искре в pyspark

Опция "maxRecordsPerFile", похоже, не работает, когда я использую распакованный список файлов для...

Shankar / 23 октября 2019

1 голос

2 ответов

Как рассчитать числовую разницу между столбцами разных фреймов данных?

Учитывая два искровых фрейма данных A и B с одинаковым количеством столбцов и строк, я хочу...

mobupu / 23 октября 2019

0 голосов

1 ответ

Spark SQL не распознает \ d +

Я пытаюсь использовать функцию regex_extract, чтобы получить последние три цифры в строке...

Rusty / 23 октября 2019

0 голосов

0 ответов

Имеет ли Apache Spark какой-либо встроенный механизм для обработки строк текстового файла, заканчивающихся пользовательскими символами

Хотя существуют разные способы обработки текстовых файлов с различными полями и разделителями строк

sanjeev kumar / 23 октября 2019

0 голосов

1 ответ

Невозможно разбить столбец на несколько столбцов в кадре данных Spark

Невозможно разделить столбец на несколько столбцов в кадре данных Spark и с помощью RDD. Я...

user11789810 / 23 октября 2019

0 голосов

2 ответов

* PySpark * TypeError: аргумент int () должен быть строкой или числом, а не «столбцом»

Я работаю над этим проектом PySpark, и когда я пытаюсь что-то вычислить, я получаю следующую...

Miruna Pîrvulescu / 23 октября 2019