Существует несколько способов отправить свои задания кустов в dataproc.
ДА dataproc считывает данные из корзины Google.Я уже ответил на этот вопрос ЗДЕСЬ
Существует несколько случаев, когда вы можете отправить свои задания улья в dataporc.
1) Вы можете напрямую дать команду, выбрав опцию запроса.
2) Вы можете выбрать опцию файла запроса и затем указать местоположение файла (хранилище Google).Примером этого является Здесь
Теперь перейдем к первому вопросу: Является ли использование hive вместе с Dataproc лучшим способом сделать это? -
Это полностью зависитпо вашему требованию.Есть много вариантов работы, вы должны выбрать в зависимости от ваших требований, и, следовательно, это становится лучшим.Я мог бы ответить на это более четко, если бы вы могли указать более подробную информацию о вашем требовании.
Что ж, я могу дать вам краткий обзор HIVE JOBS , чтобы вы могли удовлетворить ваши требования.
В заданиях Hive вы можете сделать следующее:
- Вы можете задать встроенный запрос (один или несколько)
- Вы можете задать форму запроса командыфайл запроса (один или несколько)
- Вы можете добавить файлы JAR в свой куст - это может быть для любых целей, таких как UDF (один или несколько)
- Вы можете добавить дополнительные свойства для настройкиРабота
- Вы можете автоматизировать работу
Это все о базовых улей работы.
Воздушный поток Документация Data Proc имеет все доступные операторы, которые вы можете использовать.