Я хочу получить правильно разделенный текст из BeautifulSoup, превращая теги в пробелы, если это необходимо.Проблема заключается в том, что переводы строк свернуты, а теги типа <br/>
не отображаются как пробелы.
<div class="companyInfo">
<p class="identInfo">
<acronym title="Standard Industrial Code">
SIC
</acronym>
:
<a href="/?SIC=3674">
3674
</a>
- SEMICONDUCTORS & RELATED DEVICES
<br />
State location: CA
</p>
</div>
Если я запускаю BeautifulSoup (sampleHTML) .text, я получаю следующее:
u'SIC:3674- SEMICONDUCTORS & RELATED DEVICESState location: CA'
Я хотел бы получить что-то, что правильно обрабатывает пробелы, например:
u'SIC : 3674 - SEMICONDUCTORS & RELATED DEVICES State location: CA'
Есть предложения?Спасибо!