Запустил приложение spark на AWS emr, используя YARN в кластерном режиме, используя конфигурацию c4
Я написал следующую функцию, которая объединяет две строки и добавляет их в новый столбец кадра...
Я использую класс Spark mlib's BinaryClassificationMetrics для генерации метрик для вывода...
Я хочу запустить локальное задание Dynamodb без использования кластера EMR, которые читают данные...
Я пытаюсь соединить три разных RDD на спарк, но выдает ошибку val name= sc
Я довольно новичок, чтобы зажечь. Сейчас я пытаюсь выяснить, возможно ли настроить искровой кластер...
Я столкнулся с одной проблемой при чтении паркета через искру. Один файл паркета был записан с...
Возможно ли иметь один главный файл, в котором хранится список аргументов, на который можно...
inputfile='s3a://storename/stores.csv' output_file='s3a://storename/newstores
Я отправляю задания на спарк с помощью spark-submit в автономном режиме. Все эти задания...
У меня большой объем данных, около 500 ТБ, мне нужно сделать несколько ETL для этих данных. Эти...
У меня проблема с экспортом моей модели в PMML. моя модель использовала CrossValidatorModel, чтобы...
Я использовал KMeans, чтобы разделить свои элементы на наборы кластеров, а затем внутри каждого...
Я хотел бы использовать EMR и Spark для обработки отчета об инвентаризации AWS S3, сгенерированного...
Возможно ли найти метрики ошибок (точность и отзыв) в задаче классификации мультикласса в Apache...
Запуск заданий в кластере spark 2.3, я заметил в веб-интерфейсе spark, что разлив происходит для...
У меня есть два абсолютно одинаковых кадра данных для сравнительного теста df1...
Я пишу приложение Spark Streaming, в котором входные данные помещаются в корзину S3 небольшими...
Я пытаюсь прочитать данные из "s3: //fakePath/subFakePath/sub-sub-FakePath/*.gz" в искру,...
Давайте рассмотрим набор данных с простым отношением «многие ко многим»: банковские счета, которые...
Привет, ребята, Мой вопрос о ноутбуке Zeppelin.Я новичок в среде Zeppelin.У меня есть аккаунт AWS.Я...
В этом предыдущем вопросе я пытался избежать проблем с памятью с Spark join, избегая использования...
Я хочу вывести схему из большого набора данных (скажем, данные за 6 месяцев) и использовать ее для...
Проблема в двух словах: Существует огромное количество входных данных в формате JSON.Как сейчас,...
Моя платформа - spark 2.1.0, использующая язык Python. Теперь у меня есть около 100 моделей...