Впервые в Scala. Я создал функцию подстроки в scala, которая требует "pos" и "len", я хочу, чтобы...
Я пытаюсь запустить кластер AWS emr и отправить шаг, используя EmrCreateJobFlowOperator и...
У меня есть список интервалов, которые я хотел бы объединить при наложении. пример: List((1,1),(2...
У меня есть требование копировать данные из одной исходной таблицы Hive в другую целевую таблицу....
Я пытаюсь записать данные файла CSV в Avro, ниже я прилагаю свой код. public class CsvToAvro {...
Я хочу использовать образ Docker с Apache Spark в Ubuntu 18.04. Более популярное изображение из...
У меня есть CSV-файл, как показано ниже В нем 6 строк с верхней строкой в качестве заголовка, в...
Я запускаю небольшое приложение Spark, используя spark-submit. Это терпит неудачу с исключением. Но...
У меня есть следующий фрейм данных val count :Dataframe = spark.sql("select 1,$database_name...
Привет! Я хочу сохранить свой искровой фрейм данных в файл с пользовательским форматом, таким...
Наше искровое задание - это очень простое потоковое приложение Kafka, которое потребляет пакет...
Я пытаюсь получить размер папки для некоторых папок S3 с scala из командной строки EMR. У меня есть...
Я использую AWS Glue для сканирования XML-файлов и добавления их в таблицу базы данных Glue....
У меня есть данные в CSV, как показано ниже, первая строка пуста, а вторая строка заполнена только...
У меня есть конечная точка API, написанная sparksql со следующим примером кода. Каждый раз, когда...
У меня есть поток Kinesis, в который мое приложение записывает ~ 10K сообщений в секунду в формате...
У меня есть данные транзакции, но мне нужно рассчитать количество посещений на основе countDistinct...
Я использую Sparklyr для проекта и понял, что сохранение очень полезно.Я использую sdf_persist для...
Я установил Spark и столкнулся с проблемами при загрузке модуля pyspark в ipython.Я получаю...
Версия Spark: Scala 2.12.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_211) В следующем коде...
У меня есть СДР следующим образом: [(((1, 2), 1.0), (2, 3)), (((1, 2), 1.0), (3, 4)), (((1, 2), 3
Я пытаюсь получить доступ к каждой строке определенного "числа" столбца Int, чтобы проследить...
Я просматривал показатели работы AWS Glue и обнаружил что-то странное ... Зачем нужно количество...
Простое val postsAndUsers = posts.join(users, $"_OwnerUserId" === users("_Id"),...
При попытке записать фрейм данных в Bigquery с помощью драйвера Simba. Я получаю исключение ниже....