Парсинг веб-страницы с php - PullRequest
1 голос
/ 04 января 2012

Я работаю над созданием моего нового веб-сайта и не могу найти лучший способ выполнить какой-либо анализ.

Я пытаюсь разобрать эту веб-страницу длякомментарии (последние 3), страница «что нового», страница разрешений и правая панель (с оценками и т. д.).

Я посмотрел на parse_url и несколько других методов, но ничего не сделалдействительно работает вообще.

Любая помощь приветствуется, а примеры еще лучше!Заранее спасибо.

Ответы [ 4 ]

2 голосов
/ 22 июня 2012

я рекомендую использовать DOM для этой работы, вот пример для получения всех URL-адресов на сайте:

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');

foreach( $doc->getElementsByTagName('a') as $item){
    $href =  $item->getAttribute('href');
    var_dump($href);
}
1 голос
/ 04 января 2012

parse_url анализирует фактический URL-адрес (а не страницу, на которую указывает URL-адрес).

Что вы хотите сделать, это очистить веб-страницу, на которую он указывает, и забрать контент оттуда.Вам нужно будет использовать fopen, который даст вам исходный HTML-код страницы, а затем проанализирует HTML-код и подберет то, что вам нужно.

Отказ от ответственности: очистка страниц не всегда разрешена.

1 голос
/ 04 января 2012

Простой HTML DOM

Я использую его, и он прекрасно работает. Образцы по предоставленной ссылке.

0 голосов
/ 04 января 2012

Расширение PHP SimpleXML - ваш друг здесь: http://php.net/manual/en/book.simplexml.php

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...