Ниже приведены мои примеры данных: 1,Siddhesh,43,32000 1,Siddhesh,12,4300 2,Devil,10,1000 2,Devil...
У меня 1 драйвер и 6 ядер с 16 ГБ оперативной памяти и 8 ядрами в каждом.Я использую spark-submit...
У меня есть процесс PySpark, который извлекает запросы запросов из очереди, выполняет их через...
Я попытался реализовать приложение Spark Streaming, которое считывает потоковые данные из Kafka
У меня есть столбец: val originalSqlLikePatternMap = Map("item (%) is blacklisted%" ->...
У меня есть набор данных в формате RDD, где каждая запись - Array[Array[String]].Каждая запись...
Следующий простой код читает JSON string и создает набор данных, когда MyClass является case class,...
Я читаю данные из Kafka с помощью Spark Structured Streaming и хочу включить метку времени Kafka в...
Предположим, что у меня есть фрейм данных со столбцами ("class", "x", "y", "z", "label"), и я хотел...
Ниже приведена ссылка, относящаяся к потоковой передаче смещения темы kafka в pyspark. from pyspark
Я изучаю возможности объединения операций Spark и мне интересно, если Spark может объединить фильтр...
Я пытаюсь зарегистрироваться ниже класса для сериализации Kryo в коде искры, но я получаю сообщение...
У меня есть 2 таблицы Employees (Id, Name), EmployeeSalary (EmployeeId, Designation, Salary).Один...
У меня есть что-то вроде приведенного ниже в искре, из которого я группирую, а затем пытаюсь найти...
Я работаю с фреймом данных, который содержит два массива, которые я хочу получить из этих двух...
Когда данные находятся в Hive как формат паркета и при попытке чтения из Spark, я сталкиваюсь с...
Я пытаюсь прочитать простой текстовый файл в Spark RDD и вижу, что есть два способа сделать это:...
Я пытаюсь прочитать таблицу на postgres db и загрузить данные в таблицу Hive на HDFS, как показано...
При попытке записи набора данных в раздел в таблице кустов я вижу периодически возникающие...
Я выполняю какую-то обработку в spark и хочу реализовать функциональность, которая независимо от...
Я получаю эту ошибку в журналах пряжи для моей работы Spark Streaming.Любой совет о том, как его...
У меня есть фрейм данных, который разделен на col0;в DF есть много строк на значение col0.У меня...
Я выполняю операцию соединения из данных паркета S3 в таблицу JDBC (Postgres), используя столбец в...
Я хочу написать набор потоковых данных в Cassandra.Я использую водяной знак в сценарии и использую...
Я пытаюсь использовать Tez в качестве механизма исполнения Hive.Я загружаю файл данных паркета в...