Ну, самый быстрый анализатор XML (без проверки), который я видел до сих пор, это VTD-XML . Его можно использовать везде, где производительность имеет первостепенное значение. Чтобы дать некоторые цифры, на Core2 2,5 ГГц VTD-XML превосходит DOM-парсеры в 5x ~ 12x, обеспечивая 150 ~ 250 МБ / с на поддерживаемую пропускную способность ядра.
При такой скорости можно проанализировать 1 ГБ XML за 10 секунд. Если анализ выполнен успешно, вы можете случайно просмотреть структуру данных в памяти или использовать XPath для получения данных.
Учитывая ваши требования (ввод XML 1 ГБ), вы должны принять во внимание, что VTD-XML будет занимать 1,3 ~ 1,5 ГБ ОЗУ вашей системы, потому что он должен создать структуру данных в памяти для доступа к анализируемым данным, а также сам текст XML.
Библиотека VTD-XML доступна для C #, Java, C ++, C, к ней нужно некоторое время, чтобы привыкнуть, поскольку у нее есть некоторая кривая обучения, но в долгосрочной перспективе она может начать окупаться.
Если доступной памяти недостаточно, потоковый анализатор (SAX) должен быть более подходящим инструментом для этой работы.