Я собираюсь создать веб-сканер, который собирает тематические строки с форумов.После этого я хотел бы отобразить каждую тему в виде новой строки с [*] в начале каждой строки.
Используя BeautifulSoup, я могу захватить страницу и извлечькласс span "предмет".Оттуда, однако, я не уверен, как разобрать только текст темы, а затем упорядочить его так, как я пытаюсь.
import requests
from bs4 import BeautifulSoup
url = "https://boards.4channel.org/sci/"
#send the HTTP request
response = requests.get(url)
if response.status_code == 200:
#pull the content
html_content = response.content
#send the page to BeautifulSoup
html_doc = BeautifulSoup(html_content, "html.parser")
#extract topic data
topic_spider = html_doc.find_all("span",{"class":"subject"})
print topic_spider
Текущие результаты от сканера выглядят так:
[<span class="subject"></span>, <span class="subject"></span>, <span class="subject">Cigarettes vs. Cannabis</span>, <span class="subject">Cigarettes vs. Cannabis</span>, <span class="subject"></span>, <span class="subject"></span>, <span class="subject"></span>, <span class="subject"></span>, <span class="subject"></span>...
Я пытаюсь заказать их так:
[*] Topic 1
[*] Topic 2
[*] Topic 3