Я пытался создать программу (я приведу приведенный ниже код), которая будет сканировать каждую страницу, найденную в домене, а затем очищать весь текст, содержащийся на сайте.
Я создал программу, которая, кажется, берет весь текст с каждой страницы, однако вся информация «теряется» во всем коде веб-сайта и отображается следующим образом.
n \ t \ t \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \ t ',' Dry облицовка - это система для облицовки внутренних поверхностей зданий, таких как стены и потолки с гипсокартоном, когда «влажная» штукатурка не требуется. ',' \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \ t \ t \ t \ t ',' \ n \ t \ t \ t ',' \ n \ t \ t ',' \ n \ t \ t \ t \ t \ t \ t ',' \ n \ t \ t \ t ',' \ n \ ',' \ n \ t \ t \ t \ t \ t \ t ',' \ n \ t \ t \ t ',' \ n \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \ t ',' \ n \ t \ t \ t \ t \ t ', '\ n \ t \ t \ t \ t', '\ n \ t \ t \ t \ t', '\ n \ t \ t \ t', 'Coving', '\ t \ t', '\ n \ t \ t \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \ t \ t ',' \ n \ t \ t \
Может кто-нибудь помочь мне очистить текст, чтобы у меня осталась только соответствующая информация, пожалуйста!
Вот код:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class MySpider(CrawlSpider):
name = 'c'
allowed_domains = ['billsplastering.co.uk']
start_urls = ['https://www.billsplastering.co.uk/']
rules = (
Rule(LinkExtractor(), callback='parse_item', follow=True),
)
def parse_item(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
print(response.css("::text").extract())```