Я хотел бы извлечь данные с веб-сайта, и мне нужно знать, содержит ли он какое-либо оборудование.Как показано в примере ниже, я знаю, что у А есть CD, но у него нет CDA.
HTML:
<div class="ABC">
<h3>A</h3>
<ul>
<li class="specChecked"><p>CD</p></li>
<li class="specChecked"><p>VCD</p></li>
<li class=""><p>CDA</p></li>
</ul>
<h3>B</h3>
<div class="buyCarDetailContentSpecContent ">
<ul>
<li>
<p>b1<span>1</span></p>
</li>
<li>
<p>b2<span>2</span></p>
</li>
</ul>
</div>
</div>
Мой код:
res = requests.get('https://www.acd.com/carinfo-4434.php')
soup=BeautifulSoup(res.text,'lxml')
for item in soup.find_all(attrs={'class':'ABC'}):
for link in item.find_all('li'):
print(link)
Из моегокод, я извлеку все ли из HTML, как это:
<li class="specChecked"><p>CD</p></li>
<li class="specChecked"><p>VCD</p></li>
<li class=""><p>CDA</p></li>
<li>
<p>b1<span>1</span></p>
</li>
<li>
<p>b2<span>2</span></p>
</li>
Но это не то, что я хочу.То, что я хочу сделать, это извлечь из "li class" и текста, надеюсь, что результат будет таким:
specChecked, CD
specChecked, VCD
, CDA
(Или, может быть, я могу просто заменить specChecked как 1 и пробел как 0)