Как извлечь определенные ссылки из исходного кода HTML с помощью регулярных выражений - PullRequest
0 голосов
/ 12 декабря 2011

У меня есть HTML-страница с полной ссылкой.но они внутри предварительной метки, как показано ниже

<code><pre class="alt2" dir="ltr" style="
        margin: 0px;
        padding: 6px;
        border: 1px inset;
        width: 640px;
        height: 130px;
        text-align: left;
        overflow: auto">
http://test.com/files/tivist.r00 
http://test.com/files/tivist.r01 
http://test.com/files/fdfd.rar 
http://test.com/files/gfgf.rar.html 
http://test.com/files/trtr.zip 

Страница полна ссылок, подобных этим

Есть ли способ получить только эти ссылки с целой страницы.

Я использую блокнот ++.Если я могу получить регулярное выражение, которое может просто извлечь эти ссылки

Ответы [ 2 ]

1 голос
/ 12 декабря 2011

Убедитесь, что вы отключили опцию построчно. Notepad ++ имеет очень ограниченный и плохо документированный движок регулярных выражений. Попробуйте загрузить пробную версию editpad pro.

(?<=\<pre.+?)http:\/\/.+?($|\s)(?=.+?\<\/pre\>)

Это должно получить только ссылки, которые находятся внутри тега pre.

Вот снимок экрана с пробной версией Edit Pad Pro

enter image description here

1 голос
/ 12 декабря 2011

вы можете использовать следующее регулярное выражение, чтобы найти их все в документе.

http://[^\s]*

Я думаю, вы можете отредактировать его или что-то похожее

http://[^\s"><]*
...