У меня есть проект, в котором я собираю все статьи Википедии, относящиеся к определенной категории, извлекаю дамп из Википедии и помещаю его в нашу базу данных.
Так что мне нужно разобрать файл дампа Википедии, чтобы все было сделано. Есть ли у нас эффективный парсер для этой работы? Я разработчик Python. Поэтому я предпочитаю любой парсер в python. Если не предложите один, и я постараюсь написать его порт на python и добавить его в Интернет, чтобы другие люди использовали его или, по крайней мере, попробовали.
Итак, все, что мне нужно, - это анализатор python для анализа файлов дампа Википедии. Я начал писать ручной синтаксический анализатор, который анализирует каждый узел и выполняет работу.