Сканирование нескольких страниц с помощью Apify - PullRequest
0 голосов
/ 19 марта 2019

Можно ли сканировать несколько страниц, используя Apify с псевдо-URL-адресами?

Когда люди задают один и тот же вопрос, в большинстве случаев ответ указывает на псевдо-URL-адрес и не отвечает непосредственно на вопрос, если онвозможно / невозможно сделать это.

Если я не знал псевдо-URL во время работы сканера, и я собрал 10 ссылок со страницы - ТОГДА хотел очистить эти 10 ссылок,как можно это сделать?

https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

1 Ответ

3 голосов
/ 19 марта 2019

Краткий ответ:

Да.

Длинный ответ:

Существует два основных способа добавления дополнительных страниц в очередь сканирования.

Предварительно определенная структура:

Псевдо-URL используются для перехода по ссылкам, которые соответствуют определенной структуре. Веб-сайты обычно используют некоторую структуризацию в используемых ими URL-адресах. Например:

https://github.com

использует структуру:

https://github.com/{username}/{repository}

Так что, если вы хотите очистить все хранилища для пользователя apifytech, вы можете использовать псевдо-URL, например:

https://github.com/apifytech/[.+]

Дополнительную информацию о псевдо-URL можно найти в руководстве для Apify SDK .

Динамическое добавление URL во время выполнения

Если вам нужно динамически добавлять дополнительные ссылки в очередь сканирования во время выполнения, есть несколько вариантов.

При использовании Apify SDK вы всегда можете использовать либо функцию requestQueue.addRequest(), либо функцию utils.enqueueLinks().

При использовании Apify Web Scraper вы можете динамически добавлять больше страниц, используя context.enqueueRequest().

...