Как получить все статьи о людях из Википедии? - PullRequest
13 голосов
/ 25 октября 2010

Какой самый простой способ получить все статьи о людях из Википедии? Я знаю, что могу загрузить дамп всех страниц, но как мне их отфильтровать и получить только информацию о людях? Мне нужно столько, сколько я могу получить (предпочтительно больше миллиона), поэтому использование любого API-интерфейса, вероятно, не вариант.

Ответы [ 3 ]

10 голосов
/ 08 ноября 2010

Поскольку статьи о людях обычно содержат шаблон Persondata, вы можете просто искать все статьи, которые содержат Persondata.Пример запроса API для этого можно найти здесь:

Поддерживает ли API-интерфейс Википедии поиск определенного шаблона?

6 голосов
/ 13 апреля 2014

По состоянию на 2014 год у вас есть другая опция: Запрос WikiData для всех объектов, у которых свойство instance of (P31) имеет значение human (Q5) .

Полный список людей: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

Из этого списка отфильтруйте все, что не имеет sex or gender (P21) , чтобы избавиться от страниц типа «ученый»

Таким образом, вам не нужно отслеживать, какие шаблоны используются для людей в каждом отдельном языковом издании (есть 285 ) Википедии.

4 голосов
/ 26 октября 2010

Если вы собираетесь развернуть самостоятельно, в основном вам нужно сосредоточиться на « информационном блоке данных» в дампе XML.

Ссылка: http://code.google.com/p/infobox2rdf/

Или вы также можете оформить заказ http://www.freebase.com или http://dbpedia.org

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...