Мне бы хотелось одно или несколько регулярных выражений, которые могут:
1) Возьмите HTML-код большой страницы.
2) Найдите URL-адреса, содержащиеся во всех ссылках, например:
<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>
И так далее, он должен извлечь URL, содержащийся в атрибуте 'href'
, независимо от того, что находится до или после href
3) Извлеките якорный текст из всех ссылок, например, в приведенных выше примерах он должен вернуть 'http://example1.com' и текст привязки' Test 1 ', затем' http://example2.com' и 'Test 2' и т. Д. .