Традиционно при обработке больших данных («озера данных») информация, относящаяся к одной таблице, хранится в каталоге , а не в одном файле .Таким образом, добавить информацию в таблицу так же просто, как добавить другой файл в каталог.Все файлы в каталоге должны быть одной и той же схемы (например, столбцы CSV или данные JSON).
Каталог файлов можно затем использовать с такими инструментами, как:
- Spark, Hive и Presto на Hadoop
- Amazon Athena
- Amazon Redshift Spectrum
Преимущество этого метода заключается в том, что вышеуказанные системы могут обрабатывать несколькофайлы параллельно вместо того, чтобы ограничиваться обработкой одного файла однопоточным методом.
Также обычно сжимает файлы с использованием таких технологий, как gzip .Это снижает требования к хранилищу и ускоряет чтение данных с диска.Добавить дополнительные файлы легко (просто добавьте еще один csv.gz
файл) вместо того, чтобы распаковать, добавить и повторно сжать файл.
Итог: Было бы целесообразно повторноПодумайте о своих требованиях к «одному большому файлу CSV».