Я пытаюсь проанализировать XML-дамп Википедии, используя Parse-MediaWikiDump-1.0.4 вместе со скриптом Wikiprep.pl. Я полагаю, что этот сценарий хорошо работает с дампами Wiki XML ver0.3, но не с последними дампами ver0.4. Я получаю следующую ошибку.
Невозможно найти метод объекта "page" через пакет "Parse :: MediaWikiDump :: Pages" в строке wikiprep.pl 390.
Кроме того, в соответствии с документацией «Parse-MediaWikiDump-1.0.4» @ http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaWikiDump/Pages.pm, I read «LIMITATIONS Version 0.4 Этот класс был обновлен для поддержки файлов дампа версии 0.4 из экземпляра MediaWiki, но в настоящее время он не поддерживает любую новую информацию, доступную в этих файлах. "
Любой обходной путь поможет мне перейти на следующий уровень.
Примечание: можно задаться вопросом, почему мы не можем вместо этого напрямую использовать парсер SAX или STAX, дамп Википедии - это 25 ГБ плюс один файл, проблемы со стеком / памятью очевидны. Следовательно, вышеуказанный Perl-скрипт решает эту проблему, но в настоящее время я застрял с этой версией проблемы.