Вопросы для начинающих по регулярному выражению Java - PullRequest
0 голосов
/ 12 апреля 2010

Я недавно начал изучать Java Regular Expression и обнаружил действительно интересную задачу. Например, теперь мне нужно выкопать «Имя продукта», «Описание продукта» и «Продавцы для этого продукта» из следующего HTML-кода. (Прошу прощения за большой кусок кода, но это очень просто)

<td class="sr-check">
<input type="checkbox" name="cptitle" value="678560038" /></td>
<td class="sr-image" style="width: 80px;"><a href="/Nikon-D300S-12-3-678560038/prices-html"     class="strictRule" rel="nofollow"><img src="http://img01.static-nextag.com/image/Nikon-D300S-12-3-MP-Digital-SLR-Camera-Body-Black/0/000/006/789/461/678946110.jpg" alt="Nikon D300S 12.3 MP Digital SLR Camera Body - Black" class="imageLink strictRule" height="75" width="75" id="opILink_0" title="Nikon Digital Cameras - Nikon D300S 12.3 MP Digital SLR Camera Body - Black" /></a><div class="breaker">&nbsp;</div></td>
<td class="sr-info">
<div class="sr-info">
<a id="opPNLink_0" class="underline" style="font-size:16px" href="/Nikon-D300S-12-3-678560038  /prices-html" >Nikon D300S 12.3 MP <b>Digital</b> SLR <b>Camera</b> Body - Black</a> <div class="sr-subinfo">
<div class="sr-info-description">SLR - 13.1MP, 12.3MP - 1x Optical Zoom - CompactFlash, SD/MMC Memory Card - 3in.</div>
<div class="rating">
<img src="http://img01.static-nextag.com/imagefiles/stars/stars4_10px.gif" alt="4/5 stars" title="4/5 stars" /> (92 user ratings)</div>
<div style="clear: both;">
<!-- nxtginc=nextag.api.ServerInclude$JSPIncludeWriter(/buyer/ATLSSI.jsp?ptid=678560038&dts=y) -->
<a id="_atl_0" style="" href="http://www.nextag.com/serv/main/buyer/MyPDir.jsp?list=_transCookieList&amp;cmd=add&amp;ptitle=678560038" rel="nofollow">+ Add to Shopping List</a> &nbsp;|&nbsp; 
<!-- endnxtginc -->
<a rel="nofollow" id="mltLink_0" class="mlt-link" href="/Digital-Cameras--zz500001z2z678560038zB2dgz5---html">See More Like This</a>
</div>
<div id="fsLink_0" class="featuredSeller">
<a rel="nofollow" class="featuredSeller" id="opFSLink_0_0" href="/norob/PtitleSeller.jsp?chnl=main&amp;tag=785646073amp;ctx=x%2BN%2Fs9zy56l4u8RXCzALE1jeLesDMzeK09rPQEdK3Yjx395ZzX9cMh9N5JAxjk7xPqF9hjk2ztM5IRXU5nspLubIXYaVzI%2B%2Fg7h1Qz58TzgvrWuNawV8qEIqqSmClArWMq6mpzNRuSlgg2xCXYObNnaIH00iKSUmBawDRvecwbCpAxhXgXoLEiEinTwr3EipComdzxL9UHFYTLoWUToUB5SRSsolQmEJ3mgnnvu83%2FC8W34TGpN9mJo%2BnyAeTkt4&amp;ptitle=678560038"  target="_blank" >Thundercameras</a>:$1,289 &nbsp;
<a rel="nofollow" class="featuredSeller" id="opFSLink_0_1" href="/norob/PtitleSeller.jsp?chnl=main&amp;tag=797076595&amp;ctx=x%2BN%2Fs9zy56l4u8RXCzALE1jeLesDMzeK09rPQEdK3Yjx395ZzX9cMh9N5JAxjk7xPqF9hjk2ztM5IRXU5nspLubIXYaVzI%2B%2Fg7h1Qz58TzgvrWuNawV8qEIqqSmClArWMq6mpzNRuSlgg2xCXYObNrcWLhL%2BhryuAGhXNhYSPE%2BpAxhXgXoLEiEinTwr3EipComdzxL9UHFYTLoWUToUB5SRSsolQmEJ3mgnnvu83%2FC8W34TGpN9mJo%2BnyAeTkt4&amp;ptitle=678560038"  target="_blank" >PhotoVideoSuperStore</a>:$1,269 &nbsp;
<a rel="nofollow" class="featuredSeller" id="opFSLink_0_2" href="/norob/PtitleSeller.jsp?chnl=main&amp;tag=803555293&amp;ctx=x%2BN%2Fs9zy56l4u8RXCzALE1jeLesDMzeK09rPQEdK3Yjx395ZzX9cMh9N5JAxjk7xPqF9hjk2ztM5IRXU5nspLubIXYaVzI%2B%2Fg7h1Qz58TzgvrWuNawV8qEIqqSmClArWMq6mpzNRuSlgg2xCXYObNt06qcvLJ5UQz7S3zKd4urWpAxhXgXoLEiEinTwr3EipComdzxL9UHFYTLoWUToUB5SRSsolQmEJ3mgnnvu83%2FC8W34TGpN9mJo%2BnyAeTkt4&amp;ptitle=678560038"  target="_blank" >Digitalelect</a>:$1,279 &nbsp;</div>

Я бы подумал:

(1) извлечение названия продукта из тега <td class="sr-image > и использование регулярного выражения

exp ="<td><span\\s+class=\"sr-image\"[^>]*>"
          + ".*?</span><a href=\""
          + "([^\"]+)"      
          + "\"[^>]*>"      
          + "([^<]+)" + "</a>.*?</td>";

(2) извлечение информации о продукте из тега <div class="sr-info-description">.

exp = "<div class="sr-info-description"> [^>]*>"

(3) выкапывает имена продавцов из тега <div id="fsLink_0" class="featuredSeller">.

exp = "<div id="fslink_0" class="featuredSeller[^>]*>"
          + ".*?</span><a rel=\""
          + "([^\"]+)"      
          + "\"[^>]*>"      
          + "([^<]+)" + "</a>.*?</td>";

Я только начинаю изучать с помощью Java Regular Expression, я был бы признателен, если бы вы могли исправить меня, если я ошибаюсь или мое регулярное выражениеa неверно. Большое спасибо, ребята.

1 Ответ

1 голос
/ 12 апреля 2010

Как уже отмечалось, вы должны использовать парсер для интерпретации ввода html.

Но я хочу ответить на вопрос о регулярном выражении для извлечения информации о продукте из текстовой строки, например

<div class="sr-info-description">SLR - 13.1MP, 12.3MP - 1x Optical Zoom - CompactFlash, SD/MMC Memory Card - 3in.</div>

Предполагая, что это всего одна строка и не содержит никаких тегов (в этом случае вам абсолютно необходимо использовать html-парсер), регулярное выражение должно выглядеть как

<div class="sr-info-description">([^<]*)</div>

Создайте Matcher для вашего выражения, find() его во входных данных, а затем group(1) содержит текст в теге div (в то время как group(0) содержит совпавшую область, включая тег div).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...