Кто-нибудь знает о синтаксическом анализаторе, который может принимать форматированный текст Wiki в качестве входных данных и создавать дерево сущностей так же, как синтаксический анализатор XML создает дерево сущностей? Чтобы уточнить, я ищу что-то, что будет принимать текст, как:
-Intro-
Textual stuff in ''italics''
--Subhead--
Yet more text
и создайте дерево с корнем в Intro с тремя дочерними узлами, один из которых (Subhead) сам имеет дочерний. Я ищу что-то, что может понять "простой" формат вики, описанный в http://meta.wikimedia.org/wiki/Help:Wikitext.
Мне известно о нескольких лексерах для текста вики, но нет парсеров дерева. Я ищу что-то с открытым исходным кодом и написано на C или C ++.