PHP скрести вложенные страницы - PullRequest
0 голосов
/ 12 декабря 2011

Я новичок в веб-царапинах, и мне нужно быстро учиться для работы. У меня возникают проблемы при очистке клиентской веб-страницы, потому что содержимое, которое мне нужно для поиска, вкладывается однозначно в каждую запись на главной странице (более 300 раз), некоторые поля на дочерних страницах не имеют тегов и представляют собой беспорядок. Что было бы лучшей логикой для получения следующей информации. (Также, если кто-нибудь знает о каких-либо более новых инструментах очистки, которые бесплатны и заслуживают изучения, это было бы здорово. Я могу получить все записи на родительской странице. Я просто не знаю, как перейти к каждой записи, чтобы получить доступ к информации о дочерней странице, и захватить ее, прежде чем перейти к следующей строке на родительской странице.

1 Ответ

1 голос
/ 12 декабря 2011
foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

Но если вы боретесь с вышеуказанной логикой, я думаю, что я бы рекомендовал вам пропустить код и сосредоточить свое время на изучении одного из существующих инструментов. Вы почти наверняка сэкономите время. Особенно, если вы будете часто соскребать.

...