В Azure работает конвейер, который обрабатывает большие текстовые файлы (от 1 до 10 ГБ). Мне поручено улучшить трубопровод.
У нас есть простая работа, которая читает файл построчно и выполняет необходимое нам отображение / нормализацию. Файлы являются файлами tsv / csv и не имеют перекрестных ссылок.
Мы думаем разбить файл на куски и параллельно обрабатывать их на разных рабочих ролях, объединяя результаты по окончании обработки.
Есть ли какая-то особенность в Azure, которую мы можем использовать для этого?