Лучший способ обработки больших файлов в Azure - PullRequest
0 голосов
/ 12 января 2019

В Azure работает конвейер, который обрабатывает большие текстовые файлы (от 1 до 10 ГБ). Мне поручено улучшить трубопровод. У нас есть простая работа, которая читает файл построчно и выполняет необходимое нам отображение / нормализацию. Файлы являются файлами tsv / csv и не имеют перекрестных ссылок. Мы думаем разбить файл на куски и параллельно обрабатывать их на разных рабочих ролях, объединяя результаты по окончании обработки. Есть ли какая-то особенность в Azure, которую мы можем использовать для этого?

...