Как извлечь различные типы жирного текста и текста между ними, используя BeautifulSoup? - PullRequest
0 голосов
/ 19 сентября 2018

Я должен разобрать HTML-документы, выделенные жирным шрифтом, в качестве идентификаторов разделов.Но текст, выделенный жирным шрифтом, представлен в разных формах, некоторые примеры показаны ниже.

Используя Beautiful soup, я могу их анализировать, но для обработки разных типов жирного шрифта приходится много писать.Есть ли оптимальный способ найти такой жирный текст и текст между с использованием так много, если еще.

enter image description here

<div style="line-height:120%;padding-bottom:12px;font-size:10pt;">
  <font style="font-family:inherit;font-size:10pt;font-weight:bold;">List 1.&nbsp;&nbsp;&nbsp;&nbsp;Work</font>
</div>
<td style="vertical-align:top;padding-left:2px;padding-top:2px;padding-bottom:2px;padding-right:2px;">
  <div style="text-align:left;font-size:10pt;">
    <font style="font-family:inherit;font-size:10pt;font-weight:bold;">List 1.</font>
  </div>
</td>
<td style="vertical-align:top;padding-left:2px;padding-top:2px;padding-bottom:2px;padding-right:2px;">
  <div style="text-align:left;font-size:10pt;">
    <font style="font-family:inherit;font-size:10pt;font-weight:bold;">Work.</font>
  </div>
</td>
<p style="font-family:times;text-align:justify">
  <font size="2">
    <a name="de42901_List_1._Work"> </a>
    <a name="toc_de42901_2"> </a>
  </font>
  <font size="2"><b>  List&nbsp;1.&nbsp;&nbsp;&nbsp;&nbsp;Work    <br>    </b></font>
</p>
<p style="font-family:times;text-align:justify">
  <font size="2">
    <a name="da18101_List_1._Work"> </a>
    <a name="toc_da18101_3"> </a>
  </font>
  <font size="2"><b>  List&nbsp;1.&nbsp;&nbsp;&nbsp;&nbsp;</b></font>
  <font size="2"><b><i>Work    <br>    </i></b></font>
</p>

1 Ответ

0 голосов
/ 19 сентября 2018

используйте функцию split и join для удаления ненужных / n / b / t и:

soup = BeautifulSoup(data, 'html.parser')
data = soup.find_all('b')
for i in data :
    final = ' '.join([x for x in i.text.split()])
    print (final)

он упорядочит ваши данные в том же формате, надеюсь, что он разрешит ваш запрос

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...