Одна из причин, по которой вы, возможно, не получили результаты, которые вы искали, заключается в том, что вы добавляете /history
к URL-адресу, что приводит к ошибке 404 . Если вы удалите эту часть и затем используете findNext('p')
, чтобы получить следующий элемент абзаца на странице после элемента <h2 id="civil">
, вы получите ожидаемый результат:
import requests
from bs4 import BeautifulSoup
for url in ['chevron-settlement-information-sheet', 'ngl-crude-logistics-llc-clean-air-act-settlement', 'derive-systems-clean-air-act-settlement']:
page = requests.get("https://www.epa.gov/enforcement/" + url)
soup = BeautifulSoup(page.content, 'html.parser')
result = soup.find('h2', {'id': 'civil'}).findNext('p')
print(result.text)
Это распечатывает:
Chevron U.S.A. will pay a $2.95 million civil penalty, of which $2,492,750 will be paid to the United States and $457,250 to the State of Mississippi.
NGL will pay a civil penalty of $25 million. The penalty is based, in part, on the company’s limited ability to pay a larger penalty.
Derive will pay a civil penalty of $300,000, as the company has limited financial ability to pay a higher penalty.