Я хотел бы написать регулярное выражение, которое позволит мне извлекать страницы, начинающиеся с одного и того же URL.
Например: у меня есть следующий URL
https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64
И хотите только URL, который начинается с:
https://www.afp.com/fr/infos/334/
так что у меня будет:
https://www.afp.com/fr/infos/334/le barça-est-gagnant https://www.afp.com/fr/infos/334/mort au Zimbabwe https://www.afp.com/fr/infos/334/le président français
Итак, я попытался
https://www.afp.com/fr/infos/334/* https://www.afp.com/fr/infos/334/[^abc]*
Это не работает, я должен поместить регулярное выражение в программное обеспечение, которое выполняет сканирование, программное обеспечение написано на python
Вы должны просто использовать str.startswith(), как это
str.startswith()
if url.startswith('https://www.afp.com/fr/infos/334/'): # do stuff with url
Я бы просто использовал что-то вроде:
import re list = [] myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64" if "https://www.afp.com/fr/infos/334/" in myStr: list.append(myStr)
или используйте url.startswith (), как рекомендовано другим комментатором.