В настоящее время я пытаюсь очистить веб-контент с помощью Python, BeautifulSoup.
после 1-го блока выполнения кода получил следующий результат -
<div class="some class name">
<div>
<h3>Situation reports January 2020</h3>
<p>
<a target="_blank" href="/docs/default-source/coronaviruse/situation-reports/20200802-covid-19-sitrep-195.pdf?sfvrsn=5e5da0c5_2">
<strong>Situation report - 1</strong>
</a>
<br>Coronavirus disease 2019 (COVID-19)
<br>21 January 2020
</p>
</div>
</div>
Снова после шага 2, результат будет следующим:
<p>
<a href="/docs/default-source/coronaviruse/situation-reports/20200121-sitrep-1-2019-ncov.pdf?sfvrsn=20a99c10_4" target="_blank">
<strong>Situation report - 1</strong>
</a>
<br/>Novel Coronavirus (2019-nCoV)
<br/>21 January 2020
</p>
Я могу получить все и вся, кроме 21 января 2020 - что после tag.
код шага 2, как показано ниже,
all_items = contentpage.find_all('div', attrs = {'class': 'sf-content-block content-block'})
rowarray_list = []
for items in all_items:
# print(items, end='\n'*10)
situation_report = items.find("h3")
if situation_report is not None:
situation_report = situation_report.text
more_items = items.find_all('div')
for single_item in more_items:
# print(single_item, end='\n'*10)
child_item = single_item.find_all('p')
# print(single_item.getText(), end='\n'*2)
# print(single_item.next_element, end='\n'*2)
for child in child_item:
print(child.next_sibling, end='\n'*2)
записал приведенный ниже код
br_item = child.find_all('br')
for br in br_item:
temp = br.next_sibling
print(temp, end='\n'*2)
и получил результат как
введите описание изображения здесь
Я пытаюсь просто получить только значение даты. помогите пожалуйста!