Извлечение троек из файла wikidata rdf - PullRequest
0 голосов
/ 07 февраля 2020

Я пытаюсь получить чистую базу знаний из Викиданных. Я хотел бы получить много троек, таких как:

(London, capital of, UK) 
(G.W. Bush, occupation, politician)
... ...

Если вы перейдете по ссылке по этой , вы можете скачать RDF-файл, содержащий тройки. Я скачал файл .nt, так как похоже, что он мне подходит. Вот как выглядит содержимое файла:

<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "scr\u00EDbhneoir Sasanach"@ga .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "niv\u00EEskar\u00EA br\u00EEtan\u00EE"@ku-latn .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "Panulih jo palawak dari Inggirih"@min .
... ...

Есть идеи, как мне разрешить все URI? Я пытался найти URI для сопоставления файлов, чтобы очистить текст, но ничего не смог найти. В обучающих видео, через которые я проходил, они работают с идентификаторами, такими как wdt:P106 или wd:Q42, и я вижу Q42 в небольшом фрагменте, который я вам здесь показываю. Но, похоже, есть много очень разных URI. Кроме того, вы знаете, как я мог отфильтровать что-либо, что не имеет отношения к Engli sh Wikipedia?

Любой указатель на какой-нибудь хороший учебник также будет очень кстати.

...