Как использовать регулярные выражения для извлечения групп данных вопросов-ответов из HTML-файлов? - PullRequest
0 голосов
/ 28 апреля 2009

Как я могу использовать регулярное выражение для извлечения групп HTML, которые будут отформатированы следующим образом:

.

.
    .irrelevant html...
    <b>Question 6</b><br>

lots of text
<p>

lots of text
<p>
<br>

<b>Answer 6</b><br>
lots of text 
<p>

lots of text 
<p>

lots of text 
<p>

more text
<p>
<HR>

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p>

<i>caption text</i>

Может быть переменное количество пар Вопрос-Ответ. И код изображения может быть где угодно (либо между Вопросом и Ответом, либо после ответа) ...

Единственная информация, которую я хочу извлечь, - это вопрос №, текстовый код HTML без абзаца, Img src, alt и заголовок.

Ответы [ 2 ]

1 голос
/ 29 апреля 2009

Возможно, вы захотите попробовать что-то вроде Watir. Затем вы можете программно искать в дом и найти то, что вам нужно.

1 голос
/ 28 апреля 2009

Думаю, вам следует взглянуть на некоторые варианты из этого вопроса " Существует ли приложение для создания регулярного выражения из текста путем выбора области поиска? "

ReguLazy выглядит хорошо подходит.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...