Я пытаюсь провести статистический анализ мультиреддитов на основе topi c. Вместо того, чтобы собирать каждый отдельный субреддит вручную, я нашел веб-сайты, которые собирают эти субреддиты ( Пример , Пример 2 ).
Эти сайты, к сожалению, не имеют возможности загружать список субреддитов в виде открытого текста, который можно использовать в словаре. Есть ли специальный метод c, который я мог бы использовать для очистки этих сайтов, чтобы получить обратно только URL-адрес каждой прикрепленной гиперссылки на веб-странице?
Спасибо!
Изменить: вот мой текущий код
Вот мой текущий код, который работает, но возвращает каждый URL.
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = "https://snoopsnoo.com/subreddits/travel/"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data)
links = []
for link in soup.find_all('a'):
reddit = link.get('href')
links.append(reddit)
df = pd.DataFrame(links, columns=['string_values'])
df.to_csv('travel.csv')