Есть ли в любом случае, чтобы избежать регулярного выражения функции разграничения между специальными символами в строке - PullRequest
0 голосов
/ 18 апреля 2019

Я пытаюсь очистить строку между <a>...</a> блоком из HTML-файла. Я использую регулярное выражение с шаблоном, который может идентифицировать ссылки.

Я попытался найти соответствующий шаблон регулярного выражения для этого: ((/+\w+)+([:.]?(\w+))?(.org)?)(\W\w+)+. И я написал код, чтобы очистить нужные мне ссылки.

Для этих строк, хранящихся в документе:

<div class="portal" role="navigation" id='p-navigation'>
<h3>Navigation</h3>
<div class="body">
<ul>
 <li id="n-mainpage-description"><a href="/wiki/Main_Page" title="Visit the main page [z]" accesskey="z">Main page</a></li>
 <li id="n-contents"><a href="/wiki/Portal:Contents" title="Guides to browsing Wikipedia">Contents</a></li>
 <li id="n-featuredcontent"><a href="/wiki/Portal:Featured_content" title="Featured content  the best of Wikipedia">Featured content</a></li>
<li id="n-currentevents"><a href="/wiki/Portal:Current_events" title="Find background information on current events">Current events</a></li>
<li id="n-randompage"><a href="/wiki/Special:Random" title="Load a random article [x]" accesskey="x">Random article</a></li>
<li id="n-sitesupport"><a href="//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_en.wikipedia.org&uselang=en" title="Support us">Donate to Wikipedia</a></li>
</ul>
</div>
</div>

Вот мой код:

def find_link():
    links = re.findall(r"((/+\w+)+([:.]?(\w+))?(.org)?)(\W\w+)+")
    return links

for link in links:
    print(link)

Я ожидал, что вывод будет ссылкой в ​​каждой новой строке, но не:

('/wiki', '/wiki', '', '', '', '/Main_Page')
('/wiki/Portal', '/Portal', '', '', '', ':Contents')
('/wiki/Portal', '/Portal', '', '', '', ':Featured_content')
('/wiki/Portal', '/Portal', '', '', '', ':Current_events')
('/wiki/Special', '/Special', '', '', '', ':Random')
('//donate.wikimedia.org', '//donate', '.wikimedia', 'wikimedia', '.org', '=en')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...