фабрика данных Azure: перебирать миллионы файлов - PullRequest
0 голосов
/ 13 июня 2019

Ранее у меня была проблема с тем, как объединить несколько файлов JSON в один файл, который я смог решить с помощью ответа на этот вопрос .

Сначала я пытался использовать только некоторые файлы, используя подстановочные знаки в имени файла в разделе подключения входного набора данных. Но когда я удаляю имя файла, теория говорит мне, что все файлы во всех папках будут загружаться рекурсивно, так как я проверял параметр рекурсивного копирования в разделе исходного текста действия копирования.

Проблема в том, что когда я вручную запускаю конвейер после удаления имени файла из ввода набора данных, загружаются только некоторые файлы, и задача успешно завершается, но загружается только около 400+ файлов, каждая папка имеет 1M + файлы, я хочу создать большие csv-файлы, объединив все небольшие JSON-файлы источника (я уже смог создать csv-файл, сопоставив схемы в операции копирования).

enter image description here enter image description here

1 Ответ

0 голосов
/ 13 июня 2019

Возможно, он остановлен из-за тайм-аута или нехватки памяти.

Одним из решений является перебрать содержимое каталога с помощью

Directory.EnumerateFiles (searchDir)

Таким образом, вы можете обрабатывать все файлы, не имея списка / содержимого всех файлов в памяти одновременно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...