Question

Я пытаюсь очистить субконтент со страниц Википедии на основе внутренней ссылки, используя python. Проблема в том, что очищать весь контент со страницы, как можно очистить только абзац внутренней ссылки, Заранее спасибо

base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA'
sub_link="#الأسباب"
total=base_link+sub_link
r=requests.get(total)
soup = bs(r.text, 'html.parser')          
results=soup.find('p')           
print(results)

Maaz · Answer 1 · 04 октября 2019

Это потому, что вы не пытаетесь удалить подлинку. Это якорь.

Попробуйте запросить всю страницу, а затем найти указанный идентификатор.

Примерно так:

from bs4 import BeautifulSoup as soup
import requests

base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA'
anchor_id="ﺍﻸﺴﺑﺎﺑ"
r=requests.get(base_link)
page = soup(r.text, 'html.parser')
span = page.find('span', {'id': anchor_id})
results = span.parent.find_next_siblings('p')
print(results[0].text)

Как получить суб-контент со страницы википедии с помощью BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить суб-контент со страницы википедии с помощью BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы