Я использую Cloudera 5.14 Hadoop с PySpark на Hive. И мне было интересно, есть ли возможность иметь что-то вроде хранимой процедуры в Hadoop?
Чего я пытаюсь достичь? Есть ли способ, как настроить работу, которая будет работать, например, каждый день утром заходите в какой-нибудь стол Hive и пишите что-нибудь там + отправляйте электронное письмо.
Что для этого необходимо - заметьте, у меня нет прав администратора для кластера, однако я могу запускать сценарии оболочки через модуль Python подпроцесса . Также возможно ли как-то отправить письмо из скрипта PySpark?