регулярные выражения для извлечения страниц с одинаковыми URL - PullRequest
0 голосов
/ 18 апреля 2019

Я хотел бы написать регулярное выражение, которое позволит мне извлекать страницы, начинающиеся с одного и того же URL.

Например: у меня есть следующий URL


https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64

И хотите только URL, который начинается с:

https://www.afp.com/fr/infos/334/

так что у меня будет:

https://www.afp.com/fr/infos/334/le barça-est-gagnant
https://www.afp.com/fr/infos/334/mort au Zimbabwe
https://www.afp.com/fr/infos/334/le président français


Итак, я попытался

https://www.afp.com/fr/infos/334/*
https://www.afp.com/fr/infos/334/[^abc]*

Это не работает, я должен поместить регулярное выражение в программное обеспечение, которое выполняет сканирование, программное обеспечение написано на python

Ответы [ 2 ]

4 голосов
/ 18 апреля 2019

Вы должны просто использовать str.startswith(), как это

if url.startswith('https://www.afp.com/fr/infos/334/'):
    # do stuff with url
3 голосов
/ 18 апреля 2019

Я бы просто использовал что-то вроде:

import re

list = []

myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64"
if "https://www.afp.com/fr/infos/334/" in myStr:
    list.append(myStr)

или используйте url.startswith (), как рекомендовано другим комментатором.

...