Функциональность Scrapy - PullRequest
0 голосов
/ 25 мая 2020

Я новичок в кодировании и использовании веб-скребков, поэтому был бы признателен за помощь в объяснении или помощи с моей предстоящей задачей.

Я пытаюсь создать веб-скребок, который будет работать на всех типах сайтов без явного указания специфики c HTML раздел сайта, который нужно извлечь. На данный момент все веб-сайты, которые я видел, требуют указать конкретную часть веб-страницы, с которой необходимо извлечь данные.

В моем случае мне не нужно извлекать некоторые специфические c данные, такие как цена сотни статей или множество новостных статей. Что мне нужно, так это поиск определенного веб-сайта, если он содержит определенные c ключевые слова, и если это необходимо, то выделите ключевое слово, найденное вместе с URL-адресом, по которому оно было найдено.

Еще одно требование: веб-скребок должен go через разные URL-адреса веб-сайта. Например, если у меня есть веб-сайт www.website.com в моем портфолио, мне понадобится веб-сканер для go через все или хотя бы некоторое определенное количество суб-сайтов, таких как website.com/termsandconditions, website.com/faq et c.

Это то, что scrapy сможет сделать?

Заранее спасибо,

...