Я очень плохо знаком с python и пытаюсь создать скрипт, который в конечном итоге будет извлекать заголовки страниц и s из указанных URL-адресов в .csv в указанном мною формате.
Я попытался заставить паука работать в CMD, используя:
response.xpath("/html/head/title/text()").get()
Так что xpath должен быть правильным.
К сожалению, когда я запускаю файл, в котором находится мой паук, он никогда не работает должным образом. Я думаю, что проблема заключается в последнем блоке кода, к сожалению, все руководства, которые я следую, похоже, используют CSS. Я чувствую себя более комфортно с xpath, потому что вы можете просто скопировать, вставить его из Dev Tools.
import scrapy
class PageSpider(scrapy.Spider):
name = "dorothy"
start_urls = [
"http://www.example.com",
"http://www.example.com/blog"]
def parse(self, response):
for title in response.xpath("/html/head/title/text()"):
yield {
"title": sel.xpath("Title a::text").extract_first()
}
Я ожидал, когда это даст мне заголовок страницы вышеупомянутых URL.