скачать статьи из Википедии, используя специальный экспорт - PullRequest
0 голосов
/ 31 октября 2011

Я хочу иметь возможность загружать полные истории нескольких тысяч статей из http://en.wikipedia.org/wiki/Special:Export, и я ищу программный подход для его автоматизации.Я хочу сохранить результат в формате XML.

Вот мой запрос из Википедии .Я начал следующее в Python, но это не дает никакого полезного результата.

#!/usr/bin/python

import urllib
import codecs

f =  codecs.open('workfile.xml', 'w',"utf-8" )

class AppURLopener(urllib.FancyURLopener):
    version = "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
urllib._urlopener = AppURLopener()

query = "http://en.wikipedia.org/w/index.php?title=Special:Export&action=submit"
data = { 'catname':'English-language_Indian_films','addcat':'', 'wpDownload':1 }
data = urllib.urlencode(data)
f = urllib.urlopen(query, data)
s = f.read()
print (s)

1 Ответ

0 голосов
/ 06 марта 2012

Я бы честно предложил использовать Mechanize для получения страницы, а затем использовать lxml или другой xml-анализатор для получения нужной информации.Обычно я использую пользовательский агент firefox, так как многие программные пользовательские агенты заблокированы.Обратите внимание, что с помощью Mechanize вы можете заполнить форму и нажать «нажать», а затем «нажать» на экспорт.

...