Я хочу выбрать следующие строки из этого html, используя только lxml и немного умного xpath.Строки будут меняться, но окружающий HTML не будет.
мне нужно ...
19/11/2010
AAAAAA/01
Normal
United Kingdom
This description may contains <bold>html</bold> but i still need all of it!
от ...
...
<p>
<strong>Date:</strong> 19/11/2010<br>
<strong>Ref:</strong> AAAAAA/01<br>
<b>Type:</b> Normal<br>
<b>Country:</b> United Kingdom<br>
</p>
<hr>
<p>
<br>
<b>1. Title:</b> The Title<br>
<b>2. Description: </b> This description may contains <bold>html</bold> but i still need all of it!<br>
<b>3. Date:</b> 25th October<br>
...
</p>
...
Пока я только подошелс использованием выражений регулярных выражений и re:match
, чтобы попытаться перетащить его, но даже это не сработает без чего-либо, что позволит мне получить innerHTML для <p>
узлов для примера.
есть ли способсделать это без пост-обработки строки через регулярное выражение?
Спасибо:)