Я работаю над потоковым приложением со искрой и пытаюсь проанализировать JSON, указанный в...
Я разработал оконные функции в DataFrame pyspark для расчета общей суммы транзакции, сделанной...
При попытке записать фрейм данных в S3 я получаю сообщение об ошибке ниже с nullpointerexception....
Может ли кто-нибудь помочь мне понять, будут ли столбцы, использующие целые числа типа данных,...
Я использую Spark MLLib для выполнения K-средних кластеров в AWS EMR. Набор данных имеет порядок 10...
Мы видим, что объединяет несколько таблиц улья. Если я использую spark SQL в pyspark и прочитал это...
Я довольно новичок в поиске и пытаюсь провести свои эксперименты, прежде чем приступить к процессу...
Я пытаюсь отфильтровать данные на основе списка значений, и я могу запустить его так, как указано в...
Допустим, существует карта с парой ключ-значение или текстом, подобным: val pairs = Map(...
У меня есть строка метки времени с микросекундами следующим образом: +-------------------------+...
У меня есть простая проблема, но я могу найти простое решение. Я заметил следующее: myDF
Я хочу прочитать некоторые конкретные файлы, имена которых у меня есть в массиве. Могу ли я читать...
Я пытаюсь запустить искровое задание, написанное на Java, в кластере Spark для загрузки записей в...
Моя идея - подсчитать количество открытых поставок в конце месяца. Вот мой фрейм данных df. (SOD:...
У меня есть кадр данных Spark, который выглядит примерно так: id country date action 1 A 2019-01-01...
У меня есть таблица, в которой department и value теперь доступны, если мы будем использовать...
Я работаю над программой искры, которая по сути пытается объединить следующие две таблицы: Table1...
У меня есть один фрейм данных. Этот фрейм данных дает мне список записей, а затем я собираюсь...
Я получаю данные из местоположения BLOB-объекта в кадре данных, как показано ниже. | NUM_ID| Event|...
Я развертываю пакетное задание на зажигание в Kubernetes на GKE. Job пытается получить некоторые...
До того, как я начну, я знаю, что Spark / Hive не предназначены для операций в стиле CRUD, однако .
У меня есть задание Spark, которое внутренне объединяет большую таблицу Hive (5 млрд строк, 400 МБ...
Я застрял с ошибкой org.apache.spark.sql.hive.HiveSessionState, когда пытался прочитать csv-файл с...
Я пытаюсь прочитать текстовый файл с такими строками: a [b c] "d e" f Этот код работает...
Я пришел из мира реляционных баз данных, поэтому меня немного смущает, что кажется, что Spark SQL...