Вопросы с тегом амазонка-ЭЙ

0 голосов

1 ответ

Передать параметры улья в EMR Step

Я пытаюсь использовать EMR для запуска запроса к ВНЕШНЕЙ таблице, разбитой по дате, где раздел dt...

Diego Serrano / 14 мая 2019

0 голосов

1 ответ

Terrafrom EMR Bootstrap Shell File

Я хочу выполнить файл оболочки внутри модуля Terrafrom для AWS EMR, передав файл в действие...

sweeny_here / 14 мая 2019

0 голосов

2 ответов

EMR всегда дает мне класс не найден для приложения Scala

Привет! Я хотел проверить функцию пользовательского шага EMR. Я создал простое приложение для 2...

3nomis / 13 мая 2019

0 голосов

1 ответ

S3 Bucket Policy для запрета доступа ко всем, кроме роли IAM и InstanceProfile

У меня есть кластер EMR, который включает в себя шаги для записи и удаления объектов в корзине S3.Я...

Manoj Acharya / 12 мая 2019

0 голосов

0 ответов

py_spark EMRActivity в конвейерах передачи данных py_zip завершается ошибкой

Я выполняю шаг py_spark, инициированный внутри EMRActivity в конвейерах данных AWS. На данный...

ilijaluve / 11 мая 2019

0 голосов

0 ответов

код pyspark для копирования таблицы динамод в проблемы с кустами: операция не разрешена

Я пытаюсь создать внешнюю таблицу кустов из Dynamodb на aws emr, используя код pyspark. Запрос...

Ashy Ashcsi / 10 мая 2019

0 голосов

2 ответов

Автоматизированный способ запуска файла запуска экземпляра и его завершения

Я хотел бы иметь скрипт на python, который поможет мне запустить экземпляр ec2, загрузить скрипт...

RAHUL VISHWAKARMA / 09 мая 2019

0 голосов

1 ответ

Не могу применить pandas_udf в pyspark

Я испытываю некоторые эксперименты, связанные с pyspark, на ноутбуке jupyter, подключенном к...

Bitswazsky / 09 мая 2019

1 голос

0 ответов

Работа MapReduce с AWS Elastic MapReduce EMR - почему входные данные 648 МБ были разделены на 27 картографических задач?

Я использовал AWS EMR (потоковую передачу Hadoop) для обработки входных данных 648 МБ в 9 текстовых...

shebang / 08 мая 2019

0 голосов

1 ответ

Приложение не удалось 2 раза из-за контейнера AM, выход с кодом выхода -104

Я запускаю приложение Spark с двумя входными файлами и файлом jar, который берется из корзины...

Shubham Rawlani / 08 мая 2019

0 голосов

0 ответов

Как установить env var на главный узел AWS EMR

Я хочу установить значение env в Master node. например, я хочу иметь export AWS_ENV="poc"

Aida / 07 мая 2019

1 голос

1 ответ

AWS EMR: Spark - SparkException java IOException: не удалось создать локальный каталог в / tmp / blockmgr *

У меня кластер AWS EMR со Spark. Я могу подключиться к нему (искра): из главного узла после SSHing...

user954311 / 07 мая 2019

0 голосов

1 ответ

Как обрабатывать большие справочные данные в Spark

У меня большой набор данных (скажем, 4 ГБ), который используется в качестве эталонного источника...

jk1 / 07 мая 2019

0 голосов

0 ответов

Запись искры DataFrame на s3?

Я использую кластер EMR, на котором установлен spark.2.4.0. Я перетаскиваю данные из SQL Server в...

Saurabh Singh / 06 мая 2019

0 голосов

2 ответов

Использование StreamingFileSink вызывает NoClassDefFoundError

Я знаю, что это может быть моей проблемой, но я пытаюсь ее решить некоторое время. Я пытаюсь...

Nischit / 06 мая 2019

0 голосов

0 ответов

Можно ли использовать шифрование CSE с использованием KMS для расшифровки данных в кластере EMR?

У нас есть кластер EMR, и он уже создан (с использованием шифрования SSE по умолчанию). Нам нужно...

Surajit Das / 05 мая 2019

0 голосов

0 ответов

Запущенная искра на EMR, некоторые статусы работы отображаются как «неопределенные»

Я выполнил искровую работу на кластере EMR, работа довольно проста: чтение из некоторых файлов...

Jimmy Mo / 04 мая 2019

0 голосов

0 ответов

Установка приложения Spark на EMR, который находится в состоянии ожидания

Я пытаюсь установить Spark на кластер Amazon EMR (версия 5.22.0), который находится в состоянии...

Dayapule Durgaharish / 04 мая 2019

0 голосов

1 ответ

Потоковая программа Amazon EMR MapReduce прервана с ошибками

Я попытался запустить программу mapReduce «подсчет слов» с потоковой передачей Hadoop. Мой код для...

shebang / 03 мая 2019

0 голосов

0 ответов

Как убить все процессы Spark из mapPartitions, работающие на подчиненных узлах EMR?

Мы запускаем pyspark в кластере EMR и имеем ~ 50 миллионов записей в кадре данных.Каждому требуется...

kylerm42 / 03 мая 2019

0 голосов

0 ответов

Ошибка фильтра Hive Bloom при доступе к таблице с помощью pyspark

Проблема при чтении таблицы улья, в которой есть столбец с фильтром Блума. Таблица в формате ORC ....

Govind Verma / 03 мая 2019

0 голосов

1 ответ

Pyspark Почему GroupBy (и GroupBy с count ()) по результатам GBMClassifier дает противоречивый результат

В Pyspark у меня загружен большой набор данных, который я запускаю через свой GBMClassifier.Перед...

CattMooper / 03 мая 2019

0 голосов

1 ответ

Доступ к таблицам Hive с помощью Spark SQL

Я установил кластер AWS EMR, который включает в себя spark 2.3.2, hive 2.3.3 и hbase 1.4.7.Как...

Ari / 02 мая 2019

0 голосов

0 ответов

Spark Job работает с проблемами при чтении объекта из S3, Невозможно выполнить HTTP-запрос

Я пытаюсь прочитать из s3, предоставляя key и bucket, чтобы получить входные потоки, а именно...

dedpo / 02 мая 2019

0 голосов

0 ответов

Настройте кластер EMR с пользовательскими данными, используя aws create-cluster

Фон В AWS EC2 имеется множество сложных механизмов для настройки отдельных экземпляров или их...

Confused / 02 мая 2019