Извлечение текста с веб-страницы с помощью php DOMDocument - PullRequest
0 голосов
/ 18 марта 2012

У меня есть следующий скрипт, который работает почти нормально, кроме двух вещей:

  • У меня все еще есть неизвестные теги, такие как <note>, <to> или <?xml version="1.0" encoding="ISO-8859-1"?>
  • У меня также есть сценарий JavaScript, я пытался исключить их с помощью //text()[not(self::script)], но это нарушает xpath

Сценарий:

$contents = file_get_contents("http://www.w3schools.com/php/php_xml_dom.asp");
$dom = new DOMDocument();
@$dom->loadHTML($contents);
$dom->preserveWhiteSpace = false;
$xpath = new DOMXPath($dom);
// see http://www.w3schools.com/xpath/xpath_syntax.asp
$hrefs = $xpath->evaluate("//text()");
for ($i = 0; $i < $hrefs->length; $i++)
  echo $hrefs->item($i)->nodeValue;

У вас есть лучшее решение для извлечения текста с веб-страницы?

Примечание: я мог бы просто использовать strip_tags , но я хочу придерживаться DOMDocument.

1 Ответ

2 голосов
/ 18 марта 2012

Я всегда использовал это http://simplehtmldom.sourceforge.net/ и каждый раз с успехом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...