Рекомендации по обработке больших объемов данных - PullRequest
6 голосов
/ 18 сентября 2008

Итак, у меня есть «большое» количество «очень больших» ASCII-файлов числовых данных (всего гигабайт), и моя программа должна будет последовательно обрабатывать их полностью хотя бы один раз.

Какой-нибудь совет по хранению / загрузке данных? Я думал о преобразовании файлов в двоичный файл, чтобы сделать их меньше и быстрее загружать.

Должен ли я загрузить все в память одновременно?
Если нет, то является ли открытие хорошим способом частичной загрузки данных?
Какие советы по эффективности, связанные с Java?

Ответы [ 11 ]

0 голосов
/ 18 сентября 2008

Вы действительно не дали нам достаточно информации, чтобы помочь вам. Вам нужно загрузить каждый файл в отдельности, чтобы обработать его? Или вы можете обрабатывать его построчно?

Загрузка всего файла за раз может привести к снижению производительности даже для файлов, которые не очень большие. Лучше всего определить размер буфера, который вам подходит, и одновременно считывать / обрабатывать данные в буфере.

...