Question

Я недавно обнаружил Scrapy , что я считаю очень эффективным. Тем не менее, я действительно не вижу, как встроить его в более крупный проект, написанный на python. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по заданному URL-адресу с помощью функции

start_crawl(url)

, который запускает процесс сканирования в данном домене и останавливается только после просмотра всех страниц.

Tomasz Wysocki · Answer 1 · 22 июля 2010

Скрапирование намного сложнее. Он запускает несколько процессов и использует многопоточность. Так что на самом деле нет способа использовать его как обычную функцию Python. Конечно, вы можете импортировать функцию, которая запускает сканер и вызывает ее, но что тогда? У вас будет нормальный лоскутный процесс, который взял под контроль вашу программу.

Вероятно, лучший подход здесь - запускать scrappy как подпроцесс вашей программы и взаимодействовать с ним, используя базу данных или файл. У вас хорошее разделение между вашей программой и сканером, и вы полностью контролируете основной процесс.

Функция Python, основанная на Scrapy, чтобы полностью сканировать веб-сайт

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Функция Python, основанная на Scrapy, чтобы полностью сканировать веб-сайт

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы