Для проекта классификации мне нужен необработанный HTML-контент примерно 1000 веб-сайтов.Мне нужна только целевая страница и не более, поэтому сканер не должен переходить по ссылкам!Я хочу использовать скрап для этого, но не могу собрать код.Поскольку я прочитал в документации, что файлы JSON сначала сохраняются в памяти, а затем сохраняются (что может вызвать проблемы при сканировании большого количества страниц), я хочу сохранить файл в формате «.js».Я использую запрос Anaconda для выполнения своего кода.
Я хочу, чтобы в результирующем файле было два столбца, один с именем домена, а второй с содержимым raw_html на каждом сайте
domain, html_raw
..., ...
..., ...
Я нашел много примеров Spider, но я не могу понять, как собрать все воедино.Вот как далеко я продвинулся: (
Запустите проект:
scrapy startproject dragonball
Действительный паук (который может быть совершенно неверным):
import scrapy
class DragonSpider(scrapy.Spider):
name = "dragonball"
def start_requests(self):
urls = [
'https://www.faz.de',
'https://www.spiegel.de',
'https://www.stern.de',
'https://www.brandeins.de',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
???
Я перехожу кПапка дракона и выполните файл с:
scrapy crawl dragonball -o dragonball.jl
Каждая помощь будет оценена по достоинству:)