Мы разрабатываем потоковое приложение, используя Kafka, Spark Structured Streaming, Hive и s3. Мой...
Я использую Spark 2.3.0 и Scala 2.11.8 Какие совместимые версии следующих библиотек?: Hadoop-AWS...
Я пытаюсь выполнить тест хи-квадрат в Spark, и я никуда не доберусь.У меня довольно большой набор...
Итак, я пытаюсь запустить конвейер Spark на EMR и создаю шаг, подобный следующему: // Build the...
У меня кластер Amazon EMR с одним узлом 32 ГБ с кустом 2.3.4, установленным spark 2.4.2 и Hadoop 2
Здесь есть несколько сообщений об обработке недопустимых символов на первом уровне, но не о...
У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры...
У меня есть файлы паркета в S3, созданные из разных источников. У них одинаковая схема. 1 создан с...
У меня есть ТБ данных, которые хранятся с использованием --storage-class = STANDARD в одном месте...
AWS Glue Spark API поддерживает группирование нескольких небольших входных файлов (https://docs.aws
Я начинаю работать со Spark, в частности с sparkR версии 2.3.2, использующей Apache Zeppelin и...
Итак, у меня есть автономный сервер Spark History, работающий в Kubernetes, у которого нет...
Я пытаюсь выяснить, есть ли способ напрямую запросить структуру из схемы Spark, полученной из...
Я использую AWS с (Базовый план поддержки). Я хочу знать, какая версия Spark and Hadoop (HDFS)...
Я новичок в платформе данных Hortonworks (HDP).У меня полнофункциональный кластер HDP (не песочница...
Я хочу отправить EMR-задание с zip-файлом и zip-файлом, содержащим основной файл, скажем main.py...
Я пытаюсь написать компонент, который запустит кластер EMR, запустит конвейер Spark на этом...
После StringIndexer OneHotEncoder и vectorAssembler мои данные о поездах выглядят так:...
Мне нужно прочитать сжатый файл, который загружен на s3. Функциональность: когда любой файл...
Я получаю сообщение об ошибке ниже при запуске моей программы. Exception in thread "main"...
После сбоя Apache Spark Executor JVM в библиотеке C ++ я не могу найти файл hs_err_pid.log,...
когда я запускаю все эти 3 команды в оболочке / терминале Unix, все они работают нормально,...
У меня есть Java-приложение Spark, работающее на EMR. Когда я пытаюсь запустить искровое задание,...
Наша компания создает набор общих внутренних функций и заданий Spark, и я хотел бы убедиться, что...
Я пытаюсь реализовать алгоритм прогноза для прогнозирования производства электроэнергии, учитывая...