У меня есть несколько веб-страниц для разбора, и есть ссылки вроде
<a href="/news/monde/0,,3204267-VU5WX0lEIDUy,00.html" class="S48">Jean-Paul II opéré "avec succès" (24/02/2005)</a>
<a href="javascript:VerifCookie('4','/news/economie/0,,3204461-VU5WX0lEIDUy,00.html',700,600,52);" class="S48">Que peut-il se passer si le pape est incapable d'assurer sa tâche ? (24/02/2005)</a>
Как вы можете видеть, у второго есть лучший JavaScript, и я хочу избавиться от него, а также быть совместимым с первым типом. Поэтому я написал регулярное выражение в Perl:
/<a href="[^\/]*?([^<']+?)[^"]*?" class="S48">([^<>]+?)<\/a>/
чтобы перехватить часть URL без содержимого javascript, а также часть заголовка. Но это регулярное выражение занимает только часть заголовка для меня, URL-адрес просто "/" или "j".
Есть предложения?