Привет,
Я перенял у предыдущей команды и пишу задания ETL, которые обрабатывают CSV-файлы. Я использую комбинацию сценариев оболочки и Perl на Ubuntu. Файлы CSV огромны; они приходят в виде архивов. Разархивированный, многие более 30 Гб - да, это G
Устаревший процесс - это пакетное задание, выполняемое в cron, которое полностью распаковывает каждый файл, считывает и копирует его первую строку в файл конфигурации, а затем повторно архивирует весь файл. В некоторые дни это занимает много-много часов, без всякой выгоды.
Можете ли вы предложить метод извлечения только первой строки (или первых нескольких строк) из каждого файла в архиве без полной распаковки архивов?