Я работаю с потенциально огромными файлами XML, содержащими сложную информацию трассировки из моих проектов.
Я хотел бы создать индексы для этих файлов XML, чтобы можно было быстро найти подразделы документа XML без необходимости загружать их все в память.
Если я создал «полочный» индекс, который может содержать такую информацию, как «книги для автора Джо» со смещением [22322, 35446, 54545], тогда я могу просто открыть XML-файл, как обычный текстовый файл, и искать его. смещает, а затем передает его одному из анализаторов DOM, который принимает файл или строки.
Часть, которую я еще не выяснил, - это как быстро разобрать XML и создать такой индекс.
Итак, что мне нужно в качестве быстрого парсера SAX, который позволяет мне находить начальное смещение тегов в файле вместе с начальными событиями. Таким образом, я могу проанализировать подраздел XML вместе с начальной точкой в документе, извлечь информацию о ключе и сохранить ключ и смещение в индексе полки.