Я пытаюсь очистить субконтент со страниц Википедии на основе внутренней ссылки, используя python. Проблема в том, что очищать весь контент со страницы, как можно очистить только абзац внутренней ссылки, Заранее спасибо
base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA' sub_link="#الأسباب" total=base_link+sub_link r=requests.get(total) soup = bs(r.text, 'html.parser') results=soup.find('p') print(results)
Это потому, что вы не пытаетесь удалить подлинку. Это якорь.
Попробуйте запросить всю страницу, а затем найти указанный идентификатор.
Примерно так:
from bs4 import BeautifulSoup as soup import requests base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA' anchor_id="ﺍﻸﺴﺑﺎﺑ" r=requests.get(base_link) page = soup(r.text, 'html.parser') span = page.find('span', {'id': anchor_id}) results = span.parent.find_next_siblings('p') print(results[0].text)