Question

Я очищаю файл HTML, используя BeautifulSoup в python. Я хочу удалить текст после нахождения слова.

Ex:

<div class="content">

<p> Page 1 </p>
<p> Page 2 </p>
<p> Page 3 </p>
<p> Page 4 </p>
<p> Page 5 </p>

</div>

Я хочу удалить со страницы 3.

<div class="content">

<p> Page 1 </p>
<p> Page 2 </p>
<p> Page 3 </p>

</div>

Я пробовал следующее

p = soup.findAll('p')
if len(p) > 3 :
   d = p[3]
   while d:
       e = d.next
       d.extract()
       d = e

замена d.extract() на del(d) также не работает. Пожалуйста, помогите.

Brian O'Dell · Answer 1 · 28 апреля 2011

Попробуйте это:

p = soup.findAll('p')  
while len(p) > 3:
    last_p = p.pop()
    last_p.extract()

Удалить остаток HTML-файла после некоторого текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.