Я пытаюсь получить чистую базу знаний из Викиданных. Я хотел бы получить много троек, таких как:
(London, capital of, UK)
(G.W. Bush, occupation, politician)
... ...
Если вы перейдете по ссылке по этой , вы можете скачать RDF-файл, содержащий тройки. Я скачал файл .nt
, так как похоже, что он мне подходит. Вот как выглядит содержимое файла:
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "scr\u00EDbhneoir Sasanach"@ga .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "niv\u00EEskar\u00EA br\u00EEtan\u00EE"@ku-latn .
<http://www.wikidata.org/entity/Q42> <http://schema.org/description> "Panulih jo palawak dari Inggirih"@min .
... ...
Есть идеи, как мне разрешить все URI? Я пытался найти URI для сопоставления файлов, чтобы очистить текст, но ничего не смог найти. В обучающих видео, через которые я проходил, они работают с идентификаторами, такими как wdt:P106
или wd:Q42
, и я вижу Q42 в небольшом фрагменте, который я вам здесь показываю. Но, похоже, есть много очень разных URI. Кроме того, вы знаете, как я мог отфильтровать что-либо, что не имеет отношения к Engli sh Wikipedia?
Любой указатель на какой-нибудь хороший учебник также будет очень кстати.