Как очистить конкретные данные от очистки с помощью простого HTML-парсера DOM - PullRequest
7 голосов
/ 24 мая 2011

Я пытаюсь очистить данные с веб-страницы, но мне нужно получить все данные в по этой ссылке .

include 'simple_html_dom.php';
$html1 = file_get_html('http://www.aktive-buergerschaft.de/buergerstiftungen/unsere_leistungen/buergerstiftungsfinder');

$info1 = $html1->find('b[class=[what to enter herer ]',0);

Мне нужно получить все данныеиз этого сайта .

Bürgerstiftung Lebensraum Aachen
    rechtsfähige Stiftung des bürgerlichen Rechts
    Ansprechpartner: Hubert Schramm
    Alexanderstr. 69/ 71
    52062 Aachen
    Telefon: 0241 - 4500130
    Telefax: 0241 - 4500131
    Email: info@buergerstiftung-aachen.de
    www.buergerstiftung-aachen.de
    >> Weitere Details zu dieser Stiftung

Bürgerstiftung Achim
    rechtsfähige Stiftung des bürgerlichen Rechts
    Ansprechpartner: Helga Kühn
    Rotkehlchenstr. 72
    28832 Achim
    Telefon: 04202-84981
    Telefax: 04202-955210
    Email: info@buergerstiftung-achim.de
    www.buergerstiftung-achim.de
    >> Weitere Details zu dieser Stiftung 

Мне нужны данные, которые находятся "за" ссылкой - есть ли способ сделать это с помощью простого и понятного парсера - такого, который можетбыть понятым и написанным новичком!?

Ответы [ 6 ]

7 голосов
/ 28 мая 2011

Ваши предоставленные ссылки не работают, Я предлагаю вам использовать собственное расширение PHP " DOM " вместо "простого html-парсера", это будет намного быстрее и проще;) Я посмотрел на страницу с помощью googlecache, вы можете использовать что-то вроде: -

$doc = new DOMDocument;
@$doc->loadHTMLFile('...URL....'); // Using the @ operator to hide parse errors
$contents = $doc->getElementById('content')->nodeValue; // Text contents of #content
2 голосов
/ 27 мая 2011

Из того, что я могу быстро увидеть, вам нужно перебрать теги

2 голосов
/ 24 мая 2011

Кажется, что написано в документации :

$html1->find('b[class=info]',0)->innertext;
1 голос
/ 02 июня 2011

@ ноль: есть хороший сайт, чтобы попробовать удалить сайт с использованием php и python ... довольно полезный сайт по крайней мере для меня: - http://scraperwiki.com/

1 голос
/ 02 июня 2011

XPath делает соскоб смехотворно простым и позволяет некоторым изменениям в HTML-документе не влиять на вас.Например, чтобы вытащить имена, вы должны использовать запрос, который выглядит следующим образом:

//div[id='content']/d1/dt

Простой Поиск в Google даст вам множество учебных пособий

0 голосов
/ 02 июня 2011

Я бы использовал WWW: Механизация

http://search.cpan.org/dist/WWW-Mechanize/lib/WWW/Mechanize.pm

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...