Я написал сценарий в scrapy, чтобы получить ответы на различные вопросы с веб-страницы. Проблема в том, что ответы находятся за пределами элементов, на которые я сейчас нацеливаюсь. Я знаю, что мог бы схватить их, используя .next_sibling
, если бы использовал BeautifulSoup
, но в случае скрапа я не могу найти никакой идеи.
ссылка на сайт
Элементы HTML похожи на:
<p>
<b>
<span class="blue">
Q:1-The NIST Information Security and Privacy Advisory Board (ISPAB) paper "Perspectives on Cloud Computing and Standards" specifies potential advantages and disdvantages of virtualization. Which of the following disadvantages does it include?
</span>
<br/>
Mark one answer:
</b>
<br/>
<input name="quest1" type="checkbox" value="1"/>
It initiates the risk that malicious software is targeting the VM environment.
<br/>
<input name="quest1" type="checkbox" value="2"/>
It increases overall security risk shared resources.
<br/>
<input name="quest1" type="checkbox" value="3"/>
It creates the possibility that remote attestation may not work.
<br/>
<input name="quest1" type="checkbox" value="4"/>
All of the above
</p>
Я уже пробовал с:
import requests
from scrapy import Selector
url = "https://www.test-questions.com/csslp-exam-questions-01.php"
res = requests.get(url,headers={"User-Agent":"Mozilla/5.0"})
sel = Selector(res)
for item in sel.css("[name^='quest']::text").getall():
print(item)
Приведенный выше сценарий ничего не печатает, когда его ожидают, он также не выдает ошибки.
Один из ожидаемых выходных данных из вставленных выше HTML-элементов:
It initiates the risk that malicious software is targeting the VM environment.
Я только после любого решения селектора CSS.
Как я могу получить ответы на разные вопросы с этого сайта?