Я хотел бы создать json из 2-х фреймов данных (один родительский, а другой дочерний). Дочерние...
Введение R-код написан с использованием пакета Sparklyr для создания схемы базы данных....
У меня проблемы с чтением данных из AWS Redshift в мой кластер Spark. Время чтения истекло, что...
У меня есть пример данных, как показано ниже: UserId,ProductId,Category,Action 1,111,Electronics...
У меня возникла проблема с сохранением Spark ML Pipeline. Я использую Scala 2.11 и Spark 2.3.1. val...
Объединение двух данных приводит к почти 60 столбцам. Большинство из них предполагают, что они...
Я запускаю приведенный ниже код, который содержит фильтр, объединение и некоторые вычисления, такие...
Можно ли настроить несколько исполнителей для приложения Spark Streaming в локальном режиме,...
DF1 - это то, что у меня сейчас, и я хочу, чтобы DF1 выглядел как DF2. Желаемый вывод: DF1 DF2...
Пример с плагиномasticsearch4hadoop: SELECT root.toto.toto FROM elasticsearch_table Spark вызывает...
В настоящее время я выполняю алгоритм K-Means в кластере. Между последовательными выполнениями в...
Я пытаюсь использовать защищенную тему Кафки (используя SASL_PLAINTEXT, метод ScramLogin). Spark...
Ошибка: Объединение может выполняться только для таблиц с совместимыми типами столбцов. struct...
Моя проблема в том, что у меня есть несколько вариантов использования. Например, у меня есть все...
У меня есть имя таблицы "data", которая имеет 5 столбцов и каждый столбец содержит несколько...
У меня есть вопрос о разделении Spark DataFrame, в настоящее время я использую Spark 1.6 для...
Я использую версию 2 для записи и сохранения фрейма данных, используя bucketBy. Таблица создается в...
Я включил агрегирование журналов пряжи, используя Spark на Cloudera, но когда не удалось выполнить...
У меня есть кластер Spark с 17 исполнителями. Я интегрировал Spark 2.1 с Kafka и читаю данные из...
Я хочу преобразовать этот базовый SQL-запрос в Spark select Grade, count(*) * 100.0 / sum(count(*))...
Фрагменты кода: Файл 1: master.py # Spark Imports from pyspark import SparkContext,SparkConf from...
У меня есть сценарий, в котором я должен получить разницу между текущей датой и датами в столбце из...
У меня есть этот большой фрейм данных, длиной 7 миллионов строк, и мне нужно добавить столбец,...
Контекст оболочки Apache: как установить количество разделов при использовании оболочки: в...
У меня есть RDD (Int, Iterable [String]). Как сделать RDD из итерируемой части? scala> val...