фабрика данных Azure: как объединить все файлы папки в один файл - PullRequest
0 голосов
/ 11 июня 2019

Мне нужно создать большой файл, объединяя несколько файлов, разбросанных по нескольким подпапкам, содержащимся в хранилище BLOB-объектов Azure, также необходимо выполнить преобразование, каждый файл содержит массив JSON одного элемента, поэтому итоговый файл,будет содержать массив элементов JSON.

Конечная цель - обработать этот большой файл в задании Hadoop & MapReduce.

Структура исходных файлов похожа на эту:

folder
 - month-01
   - day-01
        - files...

- month-02
    - day-02
        - files...

1 Ответ

1 голос
/ 12 июня 2019

Я сделал тест на основе ваших описаний, пожалуйста, следуйте моим шагам.

Мои данные симуляции:

test1.json находится впапка: date/day1

enter image description here

test2.json находится в папке: date/day2

enter image description here

Source DataSet, установите для формата файла значение Array of Objects и путь к файлу root path.

enter image description here

Sink DataSet, установите для формата файла значение Array of Objects и укажите путь к файлу в качестве файла, в котором вы хотите сохранить окончательные данные.

enter image description here

СоздатьCopy Activity и установите Copy behavior как Merge Files.

enter image description here

Результат выполнения:

enter image description here

Пункт назначения моего теста по-прежнему - хранилище BLOB-объектов Azure. Чтобы узнать о поддержке Hadoop Azure, перейдите по этой ссылке .Хранение BLOB-объектов.

...