Я пытаюсь выполнить sqoop import в Amazon EMR (hadoop 2.8.5 sqoop 1.4.7). Импорт идет очень хорошо,...
Я пытаюсь запустить улей, используя метаданные Glue. Из документации aws В настройках каталога...
AFAIK, EMR высоко оптимизирован для чтения / записи с / на S3 и имеет локальность данных RACK_LOCAL...
Я столкнулся с проблемой при попытке запустить параллельные задания Spark Streaming на EMR. YARN...
Я использую emr 5.26.0 и sqoop 1.4.7 для импорта таблицы в hdfs. Импорт выполняется в формате...
В основном я выполняю структурированное потоковое задание 24 x 7, записывая в S3. Но натолкнулся на...
Я запускал кластер AWS ERM с использованием Java SDK (ниже приведен фрагмент кода), который...
Я использую кластер Spark K-means на кластерах AWS EMR. Набор данных содержит 10 ^ 7 строк и 9...
Я ищу ссылки на файлы, не относящиеся к Python (например, SQL, config, txt), сохраненные в формате
Я создал кластер EMS AWS и загрузил sparkify_log_small.json И создал блокнот EMR Jupyter с кодом...
При попытке записать фрейм данных в S3 я получаю сообщение об ошибке ниже с nullpointerexception....
Я использую Spark MLLib для выполнения K-средних кластеров в AWS EMR. Набор данных имеет порядок 10...
Я выполняю задания Spark на EMR с YARN и не понимаю, как подготовить и сообщить о памяти из...
Я создаю кластер EMR из terraform и вызываю пользовательский сценарий в качестве действия начальной...
Как использовать переменную, определенную в экземпляре Python кластера EMR, когда я запускаю код на...
У меня сложный запрос с несколькими левыми внешними объединениями, запущенными в течение последнего...
В настоящее время я импортирую данные postgres в hdfs. Я планирую перенести хранилище с hdfs на S3....
Мы думаем об использовании AWS EMR Jupyterhub для запуска проекта с большими потребностями в данных...
Я получил настроенные спарк-банки jar sql, и я хотел бы обновить его на существующих кластерах EMR....
Мы создали отчет, который для указанного диапазона дат просматривает БД и получает поступления от...
Я создаю кластер в регионе AWS EMR (emr-5.27.0) eu-west-3 (paris) с: Hive 2.3.5 Hue 4.4.0 Spark 2.4
Документация по шагам AWS гласит, что шаги выполняются только на главном компьютере, означает ли...
Я пытаюсь применить хеш-функцию к коротким строкам в столбце PySpark DataFrame (запущенном в...
Учитывая приложение, преобразующее csv в паркет (из и в S3) с небольшим преобразованием: for table...
У меня есть несколько пакетных заданий, которые я планирую запустить на EMR. Я планирую создать...