Мне нужно просто получить первый абзац страницы в Википедии. Содержимое должно быть в формате html, готово для отображения на моих веб-сайтах (поэтому НИКАКОЙ BBCODE или специальный код WIKIPEDIA!)
Мой подход был следующим (в PHP):
$url = "whatever_you_need" $html = file_get_contents('https://en.wikipedia.org/w/api.php?action=opensearch&search='.$url); $utf8html = html_entity_decode(preg_replace("/U\+([0-9A-F]{4})/", "&#x\\1;", $html), ENT_NOQUOTES, 'UTF-8');
$utf8html может потребоваться дополнительная очистка, но это в основном все.
$utf8html
Если вы просто ищете текст, который затем можете разделить, но не хотите использовать API, взгляните на en.wikipedia.org/w/index.php?title=Elephant&action=raw