просто с помощью функции UDF для объединения двух строк. Вот мой код import org.apache.spark.sql
У меня есть файл jar scala с именем SGA.jar.Внутри есть класс org / SGA / MainTest, который...
Есть ли опция с sparksession.read () для кэширования при загрузке?Я читаю XML-файлы из s3, и он...
У меня есть такой Dataframe (в Pyspark 2.3.1): from pyspark.sql import Row my_data = spark
Я пытаюсь выполнить группирование для определенного столбца в кадре данных на основе данных,...
Я пытаюсь получить доступ к Openstack Swift из Spark 2.4, но получаю сообщение об ошибке. org
У меня 10 узлов с 32 ядрами и 125 г каждый.У меня также есть фрейм данных с именем oldEmployee с...
Я не могу сохранить структурированные потоковые данные из Kafka в MongoDB.Это первый раз, когда я...
Входной набор данных Dataset<Row> inputDS = spark.read.format("avro")
Когда я использую таблицу кустов Spark-запросов SQL, «MetaException response too large» выдает...
Я использую spark2.3, я получаю ошибку ниже.Я нашел этот тип многих исключений в Интернете, но не...
UDF Spark содержат следующие функции: обнуляемый, детерминированный, dataType и т. Д. Таким образом...
Я изучаю экосистему Hadoop.У меня есть один вопрос по установке hadoop.Если нам нужно запустить...
Я новичок в Scala и пытаюсь прочитать неориентированный график как Graph (GraphX) из текстового...
Мой фрейм данных выглядит так: +-------------------+-------------+ | Nationality| continent|...
Я получаю исключение класса не найдено при запуске команды spark2-submit в консоли.Может ли...
Я установил искру в автономном кластере, если представил встроенный пример, как показано ниже.
Входной файл содержит 20 строк.Я пытаюсь подсчитать общее количество записей, используя функцию...
В объединении искровых фреймов данных, что происходит с родительскими фреймами данных в памяти...
Пока я отправляю эту команду в cmd для моего рабочего стола ` spark-submit --class retail_db
Версия по умолчанию для aws-sdk и связанных с ней jar-файлов 1.11.297 в EMR. даже если я укажу **...
Это любая их формула для расчета числа исполнителей в задании на искру в зависимости от размера...
Я установил kafka локально (на данный момент нет реестра кластера / схемы) и пытаюсь создать тему...
Я преобразую несколько строковых столбцов в столбцы даты и времени, но сталкиваюсь со следующими...
Рассмотрим следующее предназначено sql: select row_number() over (partition by Origin order by...