В моем проекте мы использовали большие двоичные объекты в Azure. Мы смогли загрузить файлы ORC в существующий BLOB-контейнер с именем, скажем, student_dept
весьма удобным способом, используя:
hdfs fs -copyFromLocal myfolder/student_remarks/*.orc wasbs://student_dept@universitygroup.blob.core.windows.net/DEPT/STUDENT_REMARKS
И у нас есть таблица Hive EXTERNAL: STUDENT_REMARKS
создано на student_dept
BLOB. Таким образом, мы можем очень легко получить доступ к нашим данным из облака с помощью запросов Hive.
Теперь мы пытаемся перейти от BLOB-хранилища к ADLS Gen2 для хранения файлов ORC, и я пытаюсь понять, как это повлияет. это изменение повлияет на процесс загрузки / извлечения данных.
Я совершенно новичок в Azure, и теперь я хочу узнать, как мне загрузить файлы ORC из моей HDFS в хранилище ADLS Gen2? Насколько он отличается?
Работает ли одна и та же команда с другим назначением (ADLS G2 вместо BLOB) или есть что-то дополнительное, что необходимо сделать для загрузки данных в ADLS G2?
Может кто-нибудь помочь мне с вашими комментариями по этому вопросу?