Вопросы с тегом hadoop

1 голос

0 ответов

Как получить количество таблиц для всех таблиц в одной папке в кусте HADOOP? если на сервере SAS?

Я хочу получить количество таблиц для всех таблиц в папке с именем "Planning" в базе данных кустов...

B.Dick / 04 ноября 2019

0 голосов

1 ответ

Плагин CDAP Source для чтения данных с сервера Sftp

Я хочу прочитать CSV-файл, доступный для сервера Sftp, используя плагин cdap source. Я обнаружил...

Neelesh / 04 ноября 2019

0 голосов

1 ответ

Найти путь к файлу jar в GCP

Найдите путь файла jar hadoop-streaming-1.2.1.jar в Google File Platform. https://github

Kirthy Francis / 03 ноября 2019

0 голосов

0 ответов

sqoop не будет импортировать в куст как текстовый файл, но будет как паркетный файл

Я новичок в cloudera и пытаюсь использовать sqoop в виртуальной машине cloudera quickstart. Я...

backcab / 03 ноября 2019

0 голосов

1 ответ

Управляемый Hive vs Внешние таблицы

Какой из них лучше (с точки зрения производительности и работы в долгосрочной перспективе) в...

amr007 / 03 ноября 2019

0 голосов

0 ответов

Использование --input-fields-delimited-by в sqoop?

Данные в таблице mySql имеют имя и адрес из 2 столбцов с полем адреса, содержащим запятую (,)....

Amrita Singh / 03 ноября 2019

0 голосов

2 ответов

Использование конвейера данных Hadoop

Вот мой вариант использования: У меня есть некоторые данные, хранящиеся в Hadoop (файлы HDFS, а...

kaoziun / 03 ноября 2019

1 голос

0 ответов

spark-shell разрешает петлевой адрес

Я запустил спарк-оболочку, но не смог. 2019-11-03 01:13:55,602 WARN util.Utils: Your hostname,...

lzht / 02 ноября 2019

0 голосов

0 ответов

Как spark Выполняет задание, когда данные находятся как в памяти, так и на диске, т. Е. (Сохраняются (StorageLevel.MEMORY_AND_DISK)

Я понимаю, что когда искра не может поместить все данные в памяти в свой раздел для выполнения...

Aditya Verma / 02 ноября 2019

0 голосов

0 ответов

Пряжа в EMR не раскручивает более 32 контейнеров

У меня есть сценарий, в котором все контейнеры (около 50) должны быть все время запущены для...

Learnis / 02 ноября 2019

1 голос

1 ответ

Как объединить файлы в Hive разделенных и объединенных в один большой файл?

Я работаю над кластером Azure HDInsight для обработки больших данных. Несколько дней назад я создал...

Ayaz49 / 02 ноября 2019

0 голосов

0 ответов

режим кластера spark-submit в пользовательской файловой системе пряжи

Если у меня есть своя собственная пользовательская файловая система Hadoop, доступная для...

abagshaw / 02 ноября 2019

1 голос

0 ответов

Что лучше сделать модульное тестирование в Hadoop из 2 репо ниже?

есть ли у вас опыт использования https://github.com/jetoile/hadoop-unit и https://github

rio / 01 ноября 2019

0 голосов

0 ответов

Установка HUE и Job Scheduler для HDFS

У меня есть два отдельных вопроса относительно установки следующего: 1) Я хочу установить HUE. Но...

Atul Patil / 01 ноября 2019

1 голос

1 ответ

Внешняя таблица в HIVE не возвращает данных, если дан CSV

Я использую код ниже CREATE EXTERNAL TABLE IF NOT EXISTS dev_raw_static_file.us_visits ( `visit_id`...

Joseph Honeywood / 01 ноября 2019

0 голосов

0 ответов

в кластере hadoop отображается только один узел данных

Я создаю Hadoop Cluser для приведенной ниже конфигурации. Версия Hadoop: - Hadoop 3.1.2 Версия...

Ron / 01 ноября 2019

0 голосов

1 ответ

Как я могу запланировать скрипт pyspark на почасовой основе в среде Linux

У меня есть один сценарий pyspark, и я хочу, чтобы этот сценарий выполнялся ежечасно, то есть после...

Rahul Vishwakarma / 01 ноября 2019

1 голос

1 ответ

EMR Hadoop долго работает Иов убит

У меня есть кластер EMR, когда я запускаю Sqoop с одним маппером для передачи запроса 7 миллионов...

Antonio González Borrego / 01 ноября 2019

0 голосов

0 ответов

Обязательное поле 'open_txns' не установлено! Структура: GetOpenTxnsResponse (txn_high_water_mark: 116623, open_txns: null)

Я пытаюсь вставить данные в таблицу кустов с помощью интеграции штормовых ульев. Используемая...

Spaz77 / 31 октября 2019

0 голосов

2 ответов

Есть ли способ массового переименования таблиц улья?

Я хочу добавить префикс к некоторым таблицам улья, что-то вроде следующего: alter table sales_info...

lengthy_preamble / 31 октября 2019

0 голосов

0 ответов

если еще с и оператор в pyspark для сравнения двух столбцов dataframe

Я пытаюсь compare two columns кадра данных, но это приводит к ошибке. Код PFB: if((df3.name==df3

RushHour / 31 октября 2019

1 голос

1 ответ

Определение количества сокращаемых слотов в кластере Hadoop

Используя Java API, как определить общее количество сокращенных слотов текущего кластера? (Если я...

Mike Baranczak / 31 октября 2019

1 голос

1 ответ

HADOOP - невозможно инициализировать MapOutputCollector org.apache.hadoop.mapred.MapTask $ MapOutputBuffer java.lang.ClassCastException: класс java.lang.Double

У меня проблема с моим кодом, это моя ошибка: Невозможно инициализировать MapOutputCollector org

Raffaele Marino / 31 октября 2019

0 голосов

1 ответ

Spark Submit принимает дополнительные контейнеры

При выполнении Spark-submit со статическим распределением количество порождаемых контейнеров больше...

Joby / 31 октября 2019

0 голосов

0 ответов

Невозможно использовать API REST Yarn Timeline Server v2.0

У меня есть кластер HDP 3.1.0 , и я не могу использовать API REST сервера временной шкалы. Я вижу...

X_code_X / 31 октября 2019