У меня есть какой-то довольно грязный тег HTML, и я хочу извлечь информацию об абзаце без HTML, однако я обнаружил, что могу получить только первый абзац.Так, например, HTML выглядит так:
<p>BLAH BLAH<strong><nobr><strong>people</strong></nobr></strong>'s work <strong>"Blah <nobr><strong><span style="font-size:14pt"><strong>blah</strong></span></strong></nobr> and <nobr><strong><span style="font-size:14pt"><strong>Nothing</strong></span></strong></nobr> quote"</strong>lalal</p>
<p>More text<strong><nobr><strong>More text</strong></nobr></strong> blah blah</p>
Я пытаюсь с помощью:
converted = html.fromstring(body)
para = converted.xpath('//*[starts-with(name(), "p")]')
и циклически повторяю пункты:
string_content = ''
for p in para:
if p.text is not None:
string_content += ' ' + p.text
Однако яЯ получаю только один элемент <p>
, который является первым.Этот код, кажется, не в состоянии собрать весь контент, который мне нужен, и обычно дает только первый фрагмент информации.