Как пройти через вложенную веб-страницу для просмотра веб-страниц? - PullRequest
0 голосов
/ 29 января 2019

Я хочу удалить данные с веб-страницы.

https://www.industrynet.com/companies/

Я планирую узнать название каждой отдельной компании и местоположение на этом сайте.Я полагаю, что мне нужно как-то перебрать каждую страницу, но я не уверен, как это сделать, если внутри другой страницы.

Мне лишь немного удобно просматривать одну страницу, поэтому любая помощь будет принята с благодарностью.

1 Ответ

0 голосов
/ 29 января 2019

Вы можете думать о своем процессе очистки как о дереве, в котором вы переходите по каждой ветви страниц.Так что в некотором грубом псевдокоде это будет выглядеть примерно так:

    company_details = {}
    request the landing page and parse
    for letter_href in landing_page:
        scrape the company_code URL and parse
        company_code = some_code_you_scraped
        for company_href in company_code_page:
            scrape the company page URL and parse
            append each company info to the company_details dictionary including the company_code you grabbed from the previous page.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...