Я пытаюсь извлечь содержимое имени класса.Как извлечь все содержимое, включая содержимое тегов «em» и после тегов «em»?См. Рисунок ниже:
Я попробовал следующее, и это были результаты:
Пробная версия 1:
driver = webdriver.Chrome(options=options)
sel = Selector(text = driver.page_source)
sel.xpath("//*[@class ='st']").extract()
Выход 1:
>> <span class="st"><span class="f">Nov 26, 2018 - </span>First #<em>GDPR fine</em> awarded in Germany. 330,000 user data stolen. Usernames and passwords stored in plaintext. €20,000 <em>fine</em>. Why "so low"?</span>
Пробная версия 2:
driver = webdriver.Chrome(options=options)
sel = Selector(text = driver.page_source)
sel.xpath("//*[@class ='st']/text()").extract()
Выход 2:
>> First #
В идеале, вывод, который я хочу получить:
>> Nov 26, 2018 - First #GDPR fine awarded in Germany. 330,000 user data stolen. Usernames and passwords stored in plaintext. €20,000 fine. Why "so low"?