Как я могу сканировать веб-сайт, используя scrapy? - PullRequest
0 голосов
/ 09 марта 2012

Я собираюсь написать приложение Gui, основанное на scrapy, где пользователь вводит URL-адрес веб-сайта и нажимает кнопку «Сканирование», после чего весь веб-сайт будет сканироваться и сохраняться во встроенном scrapy-db.(sqlite).

Как я могу использовать scrapy, чтобы помочь мне сканировать сайт?

1 Ответ

0 голосов
/ 06 декабря 2013

Ну, твой вопрос не очень хорошо сформулирован.Как вы можете использовать Scrapy, зависит только от вас.

Вот что в основном делает Scrapy:

1) Веб-сайты имеют древовидную структуру a-> b, a-> c, a-> d,b-> e, c-> f ..... и т. д.

2) Scrapy помогает вам рекурсивно ползать по дереву

3) Во время сканирования Scrapy позволяет вам «добывать» информацию,Для этого вам необходимо изучить XPath для поиска и анализа значений DOM на странице

http://www.w3schools.com/xpath/

4) Выполнить анализ значений и сохранить их в базе данных.

Дайте нам знать точно, для чего вы ползете.Если вы просто сканируете и сохраняете веб-страницы, вы также можете использовать такие программы, как [HTTrack] http://www.httrack.com

...