Теперь я хочу удалить верхний и нижний колонтитул html-страницы. Я понял, что верхний и нижний колонтитулы отображаются как последние две строки каждого div. Может кто-нибудь сказать мне, как извлечь все данные из div, кроме двух последних строк, как показано ниже:
<div class="page"><p />
<p></p>
<p>First line required
</p>
<p>Second line required
</p>
<p>Third line required
</p>
<p>Line 1 not required
</p>
<p>Line 2 not required
</p>
<p></p>
</div>
<div class="page"><p />
<p>line required 1
</p>
<p></p>
<p>line required 2
</p>
<p>line required 3
</p>
<p></p>
<p>line required 4
</p>
<p>line required 5
</p>
<p>line required 6
</p>
<p>Line 1 not required
</p>
<p>Line 2 not required
<p />
</div>
Существующий код, как показано ниже:
soup = BeautifulSoup(file_content, 'html.parser')
for num, page in enumerate(soup.select('.page'), 1):
content = page.get_text(strip=True, separator=' ').replace("\n", " ")