Соскреби, почисти ссылки, а потом почисти страницу - PullRequest
0 голосов
/ 04 октября 2018

Мне довольно удобно просматривать сайты в таком формате: страница Stsrt> страница 1> страница 2> страница, которую я хочу очистить

Но я немного застрял, когда речь заходит о сайте, где каждая страницаимеет ряд ссылок на страницы, которые я хочу очистить.

Я думаю, что мне нужно сначала просканировать и очистить все ссылки, которые мне нужны, в этом формате: Страница 1, очистить все ссылки, перейти на страницу 2> стр. 2, очистить все ссылки, перейти на страницу 3* повторите для количества страниц X *> затем, после того как все ссылки установлены, следуйте и очищайте данные, которые я хочу.

Будет ли лучший способ сделать это - использовать функцию для создания списка ссылок изатем передать это в функцию, которая перебирает их и очищает данные?

1 Ответ

0 голосов
/ 04 октября 2018

Если данные для каждой ссылки одинаковы, тогда да.

Вы получите что-то вроде этого:

for link in links:
    scrape_date(link)

, где links - список со всеми ссылкамина всех страницах, которые вы ранее просматривали.

Вы также можете соскрести данные со всех ссылок, найденных на каждой странице одновременно.Примерно так:

for page in pages:
    urls = scrape_urls(page)
    data = scrape_date(urls)

где pages - список всех страниц (страница 1, страница 2, страница 3 и т. Д.).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...