Как извлечь статистику из Википедии? - PullRequest
1 голос
/ 24 июля 2011

Я хочу извлечь список всех мертвых людей в Википедии и сравнить их возраст, когда они умерли.Все мертвые люди в Википедии заполнены следующие поля:

| birth_name = Thomas Alva Edison
| birth_date = {{birth date|mf=yes|1847|02|11}}
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}}

Я должен сделать гусеничный ход?В API Википедии есть что-нибудь, что может мне помочь?Есть ли место, где я могу начать ползти?Есть список погибших?

Ответы [ 2 ]

1 голос
/ 24 июля 2011

Вы можете найти дамп всего содержимого Википедии, доступного для скачивания здесь:

http://dumps.wikimedia.org/enwiki/latest/

Файл представляет собой .xml файл размером в несколько гигабайт и содержит текст всех страниц Википедии (среди прочего). То, как вы это обработаете, зависит от того, какой язык программирования вы собираетесь использовать.

0 голосов
/ 09 июля 2012

Это то, для чего DBpedia - все структурированные данные из Википедии в базе данных. Попробуйте следующий запрос на http://dbpedia.org/sparql:

select distinct ?p, ?d where {
  ?p a <http://dbpedia.org/ontology/Person> .
  ?p <http://dbpedia.org/ontology/deathDate> ?d .
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...