Вы можете использовать MSXML для этого, он возьмет строку и создаст представление DOM (Document Object Model). Документация в порядке, но это не самая простая библиотека для использования. Конечно, только в Windows.
Плюсы - надежные, широко используемые.
Минусы - вы должны в определенной степени изучить модель программирования COM. Не самый интуитивно понятный в использовании.
Более простой вариант: xerces . Пример синтаксического анализа файла здесь , есть и другие примеры. Я использовал это и MSXML на разных работах.