Маленькие файлы против больших файлов для производительности внешней таблицы - PullRequest
0 голосов
/ 04 июля 2018

Я недавно использую внешние таблицы Greenplum, и мне интересно:

Есть ли разница в производительности для распределения данных из внешней таблицы во множество небольших файлов (менее 100 КБ) вместо нескольких больших файлов (возможно, от десятков до сотен МБ)?

Есть ли разница, кроме аспекта производительности?

1 Ответ

0 голосов
/ 05 июля 2018

Для чтения: если у вас файлы меньшего размера, вы можете использовать несколько читателей gpfdist для параллельного чтения файлов, возможно, из нескольких файловых систем или каналов ввода-вывода на хосте ETL. Для записи: вам нужно создать несколько внешних таблиц, по одной для каждого имени файла. Это взорвет ваш каталог.

...