вы можете попробовать wikiprep, это Perl Википедия парсер проверить его страницу
он выводит много файлов, некоторые из которых
1- википедия анализируется в XML 2-hier файл, который содержит иерархию категорий Википедии
Я попробовал это, и это очень полезно, это единственная проблема, что ему требуется большой объем памяти, доступной для обработки, скорее всего, более 4 ГБ ОЗУ, а также вы можете скачать подготовленную версию XML здесь , который также доступен на странице