это мой метод синтаксического анализа, который дает мне список URL-адресов, но в дополнение к функции синтаксического анализа я хочу извлечь данные из другого сгенерированного URL-адреса, который называется parse_url?как это сделать...?я очень плохо знаком с терапией ... пожалуйста, помогите мне
def parse(self, response):
base_url = "https://indiankanoon.org/"
urlList=response.xpath('//div[@class="result_title"]/a/@href').extract()
print("*********************Inside parse********************")
time.sleep(5)
for url in urlList:
sepList = url.split('/')
parse_url =base_url + 'doc' + '/' + sepList[2] + '/'
fname=sepList[2]
print('New Urls : {}\n The saved file name : {}.json'.format(parse_url, fname))
for quote in response.css('div.judgments'):
with open('datafile.json','w') as jfile:
jfile.write(json.dumps({
'Court': quote.css('div.docsource_main::text').extract(),
'title': 'quote.xpath("//div[@class='judgments']/div[@class='doc_title']/text()").extract_first(),
'subTitle': quote.css("div.judgments::text").extract_first(),
'P_tags': quote.xpath("//div[@class='judgments']/p/text()").extract(),
'Pre_tags': quote.xpath("//div[@class='judgments']/pre/text()").extract(),
'blocked_quote': quote.xpath("//div[@class='judgments']/blockquote").extract()
}))
enter code here