Горные группы людей из Википедии - PullRequest
3 голосов
/ 28 марта 2010

Я пытаюсь получить список людей из http://en.wikipedia.org/wiki/Category:People_by_occupation. Я должен пройти через все разделы и собрать людей из каждого раздела.

Как мне это сделать? Должен ли я использовать сканер и получать страницы и осуществлять поиск по тем, кто использует BeautifulSoup?
Или есть другая альтернатива, чтобы получить то же самое из Википедии?

Ответы [ 3 ]

3 голосов
/ 28 марта 2010

Я бы пошел с Pywikipediabot Python Project.

Посмотрите на category.py . Вы можете использовать:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category
1 голос
/ 06 апреля 2010

Вы можете использовать инструмент CatScan для поиска категорий.

Инструкции здесь
http://meta.wikimedia.org/wiki/CatScan

Пример поиска - примечание, формат html максимально достигает 1000 результатов Выберите CSV-экспорт, чтобы получить все результаты. Кроме того, при необходимости обязательно измените глубину категории и другие параметры.

Pywikipediabot, уже упомянутый, является другим вариантом.

1 голос
/ 28 марта 2010

Если вы хотите, вы можете просто скачать весь дамп википедии и работать с ним оттуда. То, что вы, вероятно, захотите, - это только дамп статей от 3 февраля 2010 . Но будьте осторожны: его размер составляет 5,6 ГБ.

...