Я бы порекомендовал Scrapy . Он прост в использовании, и вы можете установить xpath
для поиска и извлечения именно той информации, которая вам нужна, например встроенных изображений, звуков и ссылочных таблиц стилей.
Пример для извлечения текста и ссылки
import scrapy
from ikea.items import IkeaItem
class IkeaSpider(scrapy.Spider):
name = 'ikea'
allowed_domains = ['http://www.ikea.com/']
start_urls = ['http://www.ikea.com/']
def parse(self, response):
for sel in response.xpath('//tr/td'):
item = IkeaItem()
item['name'] = sel.xpath('//a/text()').extract()#change here
item['link'] = sel.xpath('//a/@href').extract()
yield item
Как видите, вы можете установить Xpath
для извлечения именно того, что вам нужно.
Например,
image, item['link'] = sel.xpath('//img').extract()
sound, item['link'] = sel.xpath('//audio').extract()
А что касается локального хостинга, он будет работать точно так же, вам просто придется изменить url
. Затем вы можете сохранить данные или сделать что хотите.