Удалите список страниц, которые вы хотите загрузить, в массив pages
, и это должно работать. Запустите скрипт, и он распечатает файл XML. Обратите внимание, что Википедия, кажется, блокирует пользовательский агент urllib
, но я не вижу ничего на страницах, которые предлагают автоматическую загрузку, запрещено. Используйте на свой страх и риск.
Вы также можете добавить 'curonly':1
в словарь, чтобы получить только текущую версию.
#!/usr/bin/python
import urllib
class AppURLopener(urllib.FancyURLopener):
version = "WikiDownloader"
urllib._urlopener = AppURLopener()
query = "http://en.wikipedia.org/w/index.php?title=Special:Export&action=submit"
pages = ['Canada']
data = { 'catname':'', 'wpDownload':1, 'pages':"\n".join(pages)}
data = urllib.urlencode(data)
f = urllib.urlopen(query, data)
s = f.read()
print(s)