Как согласовать в OpenRefine заголовок статьи в Википедии? - PullRequest
1 голос
/ 07 мая 2020

Я хочу согласовать большое количество записей, из которых у меня есть точные названия статей в Википедии (включая снятие неоднозначности в скобках). Каков наилучший / самый быстрый способ сопоставить это большое количество записей на основе их точного заголовка в Википедии в OpenRefine? Если я просто свяжусь по тексту, достоверность будет низкой, и записи Викиданных с одинаковым заголовком перепутаются.

Ответы [ 2 ]

2 голосов
/ 07 мая 2020

Преобразуйте ваши значения в URL-адреса Википедии, например, с помощью следующей формулы GREL (при условии, что все статьи находятся на английском sh Википедии):

'https://en.wikipedia.org/wiki/'+value

Затем вы можете согласовать этот столбец с согласованием данных Викиданных сервис, который распознает эти URL-адреса и разрешит элементы Викиданных с помощью ссылок на сайты.

Если заголовки ваших статей содержат страницы с устранением неоднозначности, согласование даст вам элементы устранения неоднозначности, поэтому рекомендуется дважды проверить их тип ( P31), получив его после сверки.

0 голосов
/ 07 мая 2020

Я думаю, вы приближаетесь с противоположной стороны. Используйте номера @Wikidata, которые также доступны для страниц значений! Элемент Викиданных находится на левой боковой панели. Он обеспечивает устранение неоднозначности, не зависит от языка и допускает запросы. Каждая запись в Википедии имеет запись в Викиданных.

Также может существовать запрос SPARQL, который сделает эту работу за вас. Если вы спросите кого-нибудь из Викидатанов, они могут вам помочь. Попробуйте @wikidatafacts в Twitter.

Если вам нужно включить несвязанный текст, который может быть в некоторых списках заблокированных страниц, ручной характер Википедии вам не поможет. Но вы можете проверить эти выбросы.

...