Я пытаюсь очистить строку между <a>...</a>
блоком из HTML-файла. Я использую регулярное выражение с шаблоном, который может идентифицировать ссылки.
Я попытался найти соответствующий шаблон регулярного выражения для этого: ((/+\w+)+([:.]?(\w+))?(.org)?)(\W\w+)+
. И я написал код, чтобы очистить нужные мне ссылки.
Для этих строк, хранящихся в документе:
<div class="portal" role="navigation" id='p-navigation'>
<h3>Navigation</h3>
<div class="body">
<ul>
<li id="n-mainpage-description"><a href="/wiki/Main_Page" title="Visit the main page [z]" accesskey="z">Main page</a></li>
<li id="n-contents"><a href="/wiki/Portal:Contents" title="Guides to browsing Wikipedia">Contents</a></li>
<li id="n-featuredcontent"><a href="/wiki/Portal:Featured_content" title="Featured content the best of Wikipedia">Featured content</a></li>
<li id="n-currentevents"><a href="/wiki/Portal:Current_events" title="Find background information on current events">Current events</a></li>
<li id="n-randompage"><a href="/wiki/Special:Random" title="Load a random article [x]" accesskey="x">Random article</a></li>
<li id="n-sitesupport"><a href="//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_en.wikipedia.org&uselang=en" title="Support us">Donate to Wikipedia</a></li>
</ul>
</div>
</div>
Вот мой код:
def find_link():
links = re.findall(r"((/+\w+)+([:.]?(\w+))?(.org)?)(\W\w+)+")
return links
for link in links:
print(link)
Я ожидал, что вывод будет ссылкой в каждой новой строке, но не:
('/wiki', '/wiki', '', '', '', '/Main_Page')
('/wiki/Portal', '/Portal', '', '', '', ':Contents')
('/wiki/Portal', '/Portal', '', '', '', ':Featured_content')
('/wiki/Portal', '/Portal', '', '', '', ':Current_events')
('/wiki/Special', '/Special', '', '', '', ':Random')
('//donate.wikimedia.org', '//donate', '.wikimedia', 'wikimedia', '.org', '=en')