Как правильно проанализировать дамп вики в формате? - PullRequest
0 голосов
/ 26 мая 2011

Каков наилучший способ проанализировать дамп вики в формате, который содержит самостоятельно сгенерированный идентификатор статьи и содержимое статьи и ничего больше?

Идентификатор статьи будет идентификатором ссылки и содержимымобычный текст без ссылки без ссылок.

1 Ответ

1 голос
/ 26 мая 2011

http://en.wikipedia.org/wiki/Wikipedia:Database_download#Database_schema

Кажется, очень ясно.

http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps

Кажется, очень ясно.

http://www.mediawiki.org/wiki/Pywikipediabot

Кажется, код, который вы хотите.

...