У меня есть веб-страница, которая содержит кучу текста, и я хочу извлечь только текст со страницы и записать его в файл. Я пытаюсь использовать BeautifulSoup, но не уверен, что он легко делает то, что я хочу. Вот история: я считаю, что текст, который я хочу извлечь, лежит между:
<td colspan="2" class="msg_text_cell" style="text-align: justify; background-color: rgb(212, 225, 245); background-image: none; background-repeat: repeat-x;" rowspan="2" valign="top" width="100%">
и
<p></p><div style="overflow: hidden; width: 550px; height: 48px;">
То, что я хочу сделать, это выделить только текстовые строки между ними, но не включая начальный и конечный текст выше. Обратите внимание, что приведенный выше HTML-код находится в отдельной строке, но конечный текст иногда появляется сразу после последнего текста, который я хочу, но не в новой строке.
Кажется, я не вижу, как делать то, что я хочу, с BeautifulSoup, но, вероятно, мне мешает незнакомство.
Кроме того, текст, который я хочу извлечь, встречается на странице, скажем, 50 раз, поэтому я хочу, чтобы весь такой текст был отделен чем-то вроде '++++++++++++++++++++ +, чтобы было легче читать.
Большое спасибо за вашу помощь.