Извлечение данных о человеке из Википедии - PullRequest
1 голос
/ 22 октября 2019

Я пытаюсь извлечь данные о рождении и смерти из Википедии. Я использовал DBpedia и Wikidata, но в данном конкретном случае даты не соответствуют Википедии.

Этот запрос https://www.wikidata.org/w/api.php?action=wbgetentities&format=json&titles=Thomas_MacDermot&sites=enwiki возвращает P569 с датой 1870-01-01. DBpedia показывает ту же дату.

Страница Википедии https://en.wikipedia.org/wiki/Thomas_MacDermot показывает дату 26 июня 1870 года.

Почему это расхождение? И может ли эта информация о дате быть получена программно (т.е. не соскребать с экрана) из самой Википедии?

Спасибо!

Ответы [ 2 ]

1 голос
/ 22 октября 2019

Wikidata дополняет в основном неструктурированный контент Википедии независимо вводимыми структурированными данными, которые могут или не могут быть видны в Википедии.

DBpedia проект переводит много структурированныхи некоторые неструктурированные материалы из Википедии в структурированные данные.

DBpedia (точнее, DBpedia Snapshot) данные, как правило, отстают от изменений Википедии на месяцы или годы. Здесь мы видим dbo:birthDate для Томаса МакДермота как "1870-1-1".

DBpedia Live данные обычно отстают от Википедии на секунды до часов (со случайными более длительными задержкамииз-за программного, аппаратного обеспечения и других проблем в этой развивающейся среде). Здесь мы видим dbo:birthDate для Томаса МакДермота как "1870-06-26"^^xsd:date.

. Вы можете найти О взаимовыгодном характере DBpedia и Wikidata , представляющих интерес.


P569 описывается для меня как «рожденный | дата рождения | дата рождения | год рождения | год рождения | год рождения», что очень смущает. Похоже, что некоторые сущности описаны с полной датой в этом свойстве, в то время как другие описаны только с годом в этом свойстве, и хотя само это свойство описывается как "никогда не меняющееся", данные Wikidata имеютВозможно, сохранено неверное значение, поэтому значение в Викиданных может измениться, даже если это не так.

0 голосов
/ 22 октября 2019

Если вы посмотрите на P570, вы найдете значение "+1933-01-01T00:00:00Z", которое соответствует году рождения, но вроде P569 ни месяц, ни день.
Так что я думаю, возможно P569 иP570 это не то, что вы думаете (почему вы полагаете, что P569, кстати, дата рождения?), А просто представляют год рождения / смерти и соответствуют 1870 births / 1933 deaths категорий на странице Википедии.

...