У меня есть набор данных с примерно 500 тысячами строк и 20 столбцами. Данные разбиты на уровни,...
REGEXP_INSTR Функция: выполняет поиск в строке шаблона регулярного выражения и возвращает целое...
Я использую spark 1.6.3 и пытаюсь сохранить rdd как textFile, но получаю следующую ошибку. pRdd =...
Если я создаю Dataframe следующим образом: val usersDF = spark.read
Фон У меня есть кадр данных, который выглядит следующим образом:...
Я новичок в искре. Я передаю файлы журнала в следующем формате на порт 9999 - 2019-09-15 23:45:37...
Для данного сценария я хочу отфильтровать наборы данных в структурированной потоковой передаче в...
У меня есть следующие столбцы, которые я хочу выбрать динамически. поэтому у меня есть val...
Я попытался округлить двойное значение без десятичных точек в кадре данных искры, но на выходе...
Я выполняю следующую команду Redshift SQL, используя оператор POSIX (~) для сопоставления с...
Я хочу сделать следующее: У меня есть DataFrame с двумя столбцами (ID, отметка времени), обе строки...
У меня есть небольшой DF, который довольно дорог для вычисления. Затем я широковещательно...
У меня есть требование генерировать строки, по 1 строке на каждый месяц, который происходит между 2...
Представьте, что у нас есть набор данных clickstream, содержащий миллионы строк. И мы хотим...
Я использую Hive (2.1.1) hook, как показано ниже: set hive.exec.post.hooks=com.test
Недавно я внес некоторые пользовательские изменения в модуль катализатора Spark SQL, чтобы избежать...
У меня довольно большая таблица, которая содержит коды ICD10 (icd10_table). Я хочу получить кучу...
Я использую кластер Spark K-means на кластерах AWS EMR. Набор данных содержит 10 ^ 7 строк и 9...
Моя схема JSON содержит типы данных со Struct, Array, Struct и Array. Когда я сам разрываю это...
Опция "maxRecordsPerFile", похоже, не работает, когда я использую распакованный список файлов для...
Учитывая два искровых фрейма данных A и B с одинаковым количеством столбцов и строк, я хочу...
Я пытаюсь использовать функцию regex_extract, чтобы получить последние три цифры в строке...
Хотя существуют разные способы обработки текстовых файлов с различными полями и разделителями строк
Невозможно разделить столбец на несколько столбцов в кадре данных Spark и с помощью RDD. Я...
Я работаю над этим проектом PySpark, и когда я пытаюсь что-то вычислить, я получаю следующую...