работа с большими плоскими файлами данных с очень большой длиной записи - PullRequest
0 голосов
/ 11 июня 2010

У меня большой файл данных, созданный из сценария оболочки.Следующий скрипт обрабатывает его, сортируя и читая несколько раз.Это занимает более 14 часов;это не жизнеспособно.Я хочу заменить этот долго работающий скрипт программой, возможно, на JAVA, C или COBOL, которая может работать в Windows или в Sun Solaris.Мне приходится каждый раз читать группу записей, сортировать, обрабатывать и записывать в выходной файл сортировки, и в то же время вставлять в таблицы db2 / sql.

Ответы [ 2 ]

1 голос
/ 11 июня 2010

Если вы все равно вставляете их в базу данных, может быть гораздо проще не выполнять сортировку самостоятельно, а просто получать данные, заказанные из базы данных, как только вы вставите их все.

0 голосов
/ 11 июня 2010

Что-то, что может ускорить вашу сортировку, - это изменить сценарий создания данных, чтобы поместить данные в разные файлы на основе всех или префикса ключа, который будет использоваться для сортировки записей.

Затем, когда вы на самом деле сортируете записи, вы можете ограничить сортировку только работой с небольшими файлами, что (в значительной степени) изменит ваше время сортировки с O( f(N) ) на O( f(n0) + f(n1) + ... ), что для любого f() более сложного чем f(x)=x должно быть меньше (быстрее).

Это также откроет возможность одновременной сортировки файлов, поскольку время ожидания дискового ввода-вывода для одного потока сортировки было бы отличным временем для другого потока, чтобы фактически отсортировать загруженные записи.

Вам необходимо найти удачный баланс между слишком большим количеством файлов и слишком маленькими файлами. 256 файлов - хорошая отправная точка.

Еще одна вещь, которую вы, возможно, захотите исследовать, это ваш алгоритм сортировки. Сортировка слиянием хороша для сортировки вторичного хранилища. Сортировка выбора замены также является хорошим алгоритмом для сортировки вторичного хранилища.

http://www.cs.auckland.ac.nz/software/AlgAnim/niemann/s_ext.htm

Выполнение файлового ввода-вывода большими кусками (лучше всего выровненные по размеру блоки файловой системы) также в большинстве случаев.

Если вам все равно нужно использовать реляционную базу данных, вы можете просто пойти дальше и начать все сначала. СУРБД обычно имеют очень хорошие алгоритмы для обработки всего этого сложного материала.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...