Удалить остаток HTML-файла после некоторого текста - PullRequest
0 голосов
/ 27 апреля 2011

Я очищаю файл HTML, используя BeautifulSoup в python. Я хочу удалить текст после нахождения слова.

Ex:

<div class="content">

<p> Page 1 </p>
<p> Page 2 </p>
<p> Page 3 </p>
<p> Page 4 </p>
<p> Page 5 </p>

</div>

Я хочу удалить со страницы 3.

<div class="content">

<p> Page 1 </p>
<p> Page 2 </p>
<p> Page 3 </p>

</div>

Я пробовал следующее

p = soup.findAll('p')
if len(p) > 3 :
   d = p[3]
   while d:
       e = d.next
       d.extract()
       d = e

замена d.extract() на del(d) также не работает. Пожалуйста, помогите.

1 Ответ

1 голос
/ 28 апреля 2011

Попробуйте это:

p = soup.findAll('p')  
while len(p) > 3:
    last_p = p.pop()
    last_p.extract()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...