php как скрести внутри <li><a> с помощью simplehtmldom? - PullRequest
1 голос
/ 15 ноября 2011

HTML с сайта

    <ul id="blahlist">
    <li><a href="http://blahblah.com">blah blah</a></li>
    <li><a href="http://blahblah2.com">blah blah 2</a></li>
    ......
    </ul>

мой код

$dom = new simple_html_dom();
$dom->load_file( "blah.html" );

    $div_category = $dom->find("#blahlist");

    foreach ($div_category as &$ul){
    $a_list = $ul->find("a");
    foreach ( $a_list as &$anchor){
        $csv_array=array($anchor->plaintext, $anchor->getAttribute("href") );
        fputcsv($csv_out, $csv_array);
        print_r($anchor);
    }

проблема в том, что он показывает только первую строку (первую строку) и не показывает остальную часть списка в блалисте.Я делаю что-то неправильно?что-то связанное с <li>, которое могло бы остановиться после первой строки?

Ответы [ 2 ]

1 голос
/ 15 ноября 2011

Очистить с помощью регулярных выражений:

$html = <<<EOF
<ul id="blahlist">
    <li><a href="http://blahblah.com">blah blah</a></li>
    <li><a href="http://blahblah2.com">blah blah 2</a></li>
    <li><a href="http://blahblah2.com">blah blah 3</a></li>
    <li><a href="http://blahblah2.com">blah blah 4</a></li>
</ul>
EOF;

$ul_id = "blahlist";

if (preg_match("#<ul[^<>]+id=[\"']?{$ul_id}[\"']?[^<>]*>([\s\S]+?)</ul>#i", $html, $match)) 
{
    $lis = $match[1];
    preg_match_all("#<li[^<>]*>\s*<a[^<>]+href=[\"']?([^<>\"']+)[\"']?[^<>]*>([\s\S]+?)</a>#i", $lis, $matches);
    foreach ($matches[1] as $k => $href) {
        $href = strip_tags($href);
        $text = strip_tags($matches[2][$k]);
        print "$text [$href]<br>";
    }
}

Вы просто редактируете id списка ul в этой строке:

$ul_id = "blahlist";

Результат:

blah blah [http://blahblah.com]
blah blah 2 [http://blahblah2.com]
blah blah 3 [http://blahblah2.com]
blah blah 4 [http://blahblah2.com]
1 голос
/ 15 ноября 2011

Как насчет

$dom->find("#blahlist li");

Это "захватить" все li s под #blahlist.

...