Как я могу использовать регулярное выражение для извлечения групп HTML, которые будут отформатированы следующим образом:
.
.
.irrelevant html...
<b>Question 6</b><br>
lots of text
<p>
lots of text
<p>
<br>
<b>Answer 6</b><br>
lots of text
<p>
lots of text
<p>
lots of text
<p>
more text
<p>
<HR>
<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2>
<p>
<i>caption text</i>
Может быть переменное количество пар Вопрос-Ответ. И код изображения может быть где угодно (либо между Вопросом и Ответом, либо после ответа) ...
Единственная информация, которую я хочу извлечь, - это вопрос №, текстовый код HTML без абзаца, Img src, alt и заголовок.