Как получить информацию таблицы и резюме страницы с помощью API Википедии? - PullRequest
1 голос
/ 13 апреля 2020

Я хочу получить минимальную информацию о странице Википедии с помощью MediaWiki API, например DuckDuckGo. Например, для Стива Карелла: https://duckduckgo.com/?q=steve+carell&t=hp&ia=news&iax=about

Как получить эту информацию с помощью URL-адреса Википедии (например, https://en.wikipedia.org/wiki/Steve_Carell) в формате HTML?

1 Ответ

2 голосов
/ 13 апреля 2020

Для этого вы можете использовать API MediaWiki. Существует расширение TextExtracts, которое предназначено именно для этого (и оно установлено в Википедии).

В вашем случае, например: https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exsentences=1&titles=Steve%20Carell

вернет что-то например:

<p class=\"mw-empty-elt\">\n</p>\n\n<p class=\"mw-empty-elt\">\n \n</p>\n<p><b>Steven John Carell</b> (<span></span>; born August 16, 1962) is an American actor, comedian, producer, writer and director.</p>

Вы также можете настроить, сколько предложений (или символов) возвращает API, для этого обратитесь к документации API .

Также есть способ получить краткое описание, которое сохраняется в Викиданных (и отображается в мобильном представлении Википедии). Этот вызов будет выглядеть следующим образом: https://en.wikipedia.org/w/api.php?action=query&prop=pageprops&titles=Steve_Carell

Возвращает следующее свойство в pageprops страницы:

"wikibase-shortdesc": "American actor"

Это может подходить лучше в зависимости от вашего варианта использования .

Вы даже можете получить оба результата с помощью одного комбинированного запроса: https://en.wikipedia.org/w/api.php?action=query&prop=extracts | pageprops & exsentences = 1 & title = Steve_Carell

...