DOMDocument XPath - PullRequest
       27

DOMDocument XPath

1 голос
/ 10 сентября 2010

Может кто-нибудь показать мне несколько примеров для импорта html-страницы и использования XPath для поиска ключевых слов, включая остальную часть текста из div, p, title и т. Д.

Спасибо!

РЕДАКТИРОВАТЬ:

В этом случае я использую мой веб-сканер, например, у меня есть форма, чтобы получить сайт для сканирования и ключевые слова, которые должны быть найдены на страницах сайта.

http://crawler.tmp.remote.nl/example.php

Теперь он сканирует веб-страницы с ключевыми словами внутри, моя проблема .. Мне нужна область div вокруг найденных ключевых слов.

class MyCrawler extends PHPCrawler 
{


  function handlePageData(&$page_data) 
  { // CHECK DOMEIN
  $domain = $_POST['domain'];
  $keywords = $_POST['keywords'];
        //$tags = get_meta_tags($page_data["url"]);
        //$iKeyFound = null;


$find = $keywords;
$str = file_get_contents($page_data["url"]);
if(strpos($str, $find) == true)
{           
    echo $page_data["referer_url"]. ' - gevonden';

    $keywords = $_POST['keywords'];
    if($page_data["header"]){
    echo "<table border='1' >";
    echo "<tr><td width='300'>Status:</td><td width='500'> ".strtok($page_data["header"], "\n")."</td></tr>";}
    else "<table border='1' >";

    // PRINT EERSTE LIJN

    echo "<tr><td>Page requested:</td><td> ".$page_data["url"]."</td></tr>";
    // PRINT STATUS WEBSITE

    // PRINT WEBPAGINA
    echo "<tr><td>Referer-page:</td><td> ".$page_data["referer_url"]."</td></tr>";

    // CONTENT ONTVANGEN?
    if ($page_data["received"]==true)
      echo "<tr><td>Content received: </td><td>".$page_data["bytes_received"] / 8 . " Kbytes</td></tr></table>";
    else
      echo "<tr><td>Content:</td><td> Not received</td></tr></table>";


    $domain = $_POST['domain'];
    $link = mysql_connect('localhost', 'crawler', '--');

    if (!$link) 
    {
        die('Could not connect: ' . mysql_error());
    }

    mysql_select_db("crawler");
    if(empty($page_data["referer_url"]))
    $page_data["referer_url"] = $page_data["url"];

    strip_tags($str, '<p><b>');
    $matches = $keywords;
    //$match = preg_match_all("'/<(*.?)(*.?)>(*.?)'".$keywords."'(*.?)<\/($1)>/'", $str, $matches, PREG_SET_ORDER);
    //echo $match;



    mysql_query("INSERT INTO crawler (id, domain, url, keywords, data) VALUES ('', '".$page_data["referer_url"]."', '".$page_data["url"]."', '".$keywords."', '".mysql_real_escape_string($str) . "' )");



    echo '<br>';
    echo "<br><br>";
    echo str_pad(" ", 5000); // "Force flush", workaround
    flush();



}

1 Ответ

1 голос
/ 10 сентября 2010

Выражение XPath для поиска <div> элементов, содержащих определенные ключевые слова, может быть:

$someKeyword = "foobar";
$xPath = "//text()[contains(., '$someKeyword')]/ancestor::div[1]

Чтобы соответствовать без учета регистра, используйте translate():

$upper = "ABCDEFGHIJKLMNOPQRSTUVWXYZ";
$lower =  strtolower($upper);
$someKeyword = "foobar";
$xPath = "//text()[
            contains(
              translate(., '$upper', '$lower'),
              translate('$someKeyword', '$upper', '$lower')
            )
          ]/ancestor::div[1]";

или(и это было бы намного проще с точки зрения поиска) строчные буквы всей строки HTML перед созданием из нее DOMDocument, а затем просто используйте первое выражение XPath.

...