Regex для поиска определенной структуры текста - PullRequest
0 голосов
/ 01 февраля 2019

Я хочу найти все результаты определенной структуры в строке, предпочтительно используя регулярное выражение.

Чтобы найти все URL, можно использовать

re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', decode)

, и он возвращает

 'https://en.wikipedia.org'

Мне нужна строка регулярного выражения, которая находит:

href="/wiki/*anything*"

1 Ответ

0 голосов
/ 01 февраля 2019

OP: начало должно быть href = "/ wiki / middle может быть любым, а конец должен быть"

st = "since-OP-did-not-provide-a-sample-string-34278234$'blahhh-okay-enough.href='/wiki/anything/everything/nothing'okay-bye"    
print(st[st.find('href'):st.rfind("'")+1])

ВЫХОД:

href='/wiki/anything/everything/nothing'

РЕДАКТИРОВАТЬ:

Я бы пошел с BeautifulSoup, если мы хотим проанализировать , вероятно, html.

from bs4 import BeautifulSoup

text = '''<a href='/wiki/anything/everything/nothing'><img src="/hp_imgjhg/411/1/f_1hj11_100u.jpg" alt="dyufg" />well wait now <a href='/wiki/hello/how-about-now/nothing'>'''
soup = BeautifulSoup(text, features="lxml")

for line in soup.find_all('a'):
    print("href =",line.attrs['href'])

ВЫХОД:

href = /wiki/anything/everything/nothing
href = /wiki/hello/how-about-now/nothing
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...