У меня 200 000 XML-файлов, которые я хочу проанализировать и сохранить в базе данных.
Вот один из примеров: https://gist.github.com/902292
Это примерно так же сложно, как XML-файлы,Это также будет работать на небольшом VPS (Linode), поэтому память ограничена.
Что мне интересно, так это:
1) Должен ли я использовать парсер DOM или SAX?DOM кажется проще и быстрее, так как каждый XML маленький.
2) Где находится простое руководство по указанному парсеру?(DOM или SAX)
Спасибо
EDIT
Я пробовал маршрут DOM, хотя все предлагали SAX.Главным образом потому, что я нашел «более простое» учебное пособие для DOM и подумал, что, поскольку средний размер файла составляет около 3–4 тыс., Он легко сможет хранить это в памяти.
Однако я написал рекурсивную процедуру дляобрабатывают все файлы размером 200 тыс., и он проходит около 40% их пути, а затем Java исчерпывает память.
Вот часть проекта.https://gist.github.com/905550#file_xm_lparser.java
Должен ли я отказаться от DOM сейчас и просто использовать SAX?Просто кажется, что с такими маленькими файлами DOM должен справиться с этим.
Кроме того, скорость равна " достаточно быстро ".Для анализа 2000 XML-файлов требуется около 19 секунд (до вставки Mongo).
Спасибо