Какое потребление памяти для преобразования Apache Parquet? - PullRequest
0 голосов
/ 07 декабря 2018

Я конвертирую данные через Parquet-CPP, и я вижу постепенное увеличение потребления памяти для каждой создаваемой группы строк.Преобразованный файл будет иметь размер порядка гигабайт, поэтому будет много групп строк (> 10000), которые создают исполняемый файл, который потребляет много памяти.Кроме того, при записи метаданных файла (нижний колонтитул) необходимая память является функцией числа групп строк.

Должен ли Parquet преобразовывать файл в гигабайтах без чрезмерного давления памяти?Есть ли способ освободить группы строк перед записью метаданных файла, или я должен ограничить размер данных для преобразования?Мой язык - C ++, и, похоже, не существует механизма освобождения для групп строк, кроме закрытия средства записи файлов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...