В настоящее время я перебираю страницы Википедии, чтобы найти каждый абзац, однако я также перебираю все заголовки, чтобы собрать их вместе. Затем я отправляю их через сумматор, чтобы получить важную информацию.
Я пытаюсь связать каждый заголовок с соответствующими абзацами, однако, если в заголовке несколько абзацев, он не будет знать, что и когда я напишу все Информация в текстовый файл помещает один заголовок, а затем один абзац, независимо от того, связаны ли они. Я не уверен, понятно ли то, что мне нужно, поэтому не стесняйтесь задавать вопросы.
Код, который я использую:
from bs4 import BeautifulSoup
import requests
from summarizer import summarize
# Here, we're just importing both Beautiful Soup and the Requests library
page_link = 'https://en.wikipedia.org/wiki/England'
# this is the url that we've already determined is safe and legal to scrape from.#
page_response = requests.get(page_link, timeout=5)
# here, we fetch the content from the url, using the requests library
page_content = BeautifulSoup(page_response.content, "html.parser")
#we use the html parser to parse the url content and store it in a variable.
# VVV this is where i find the paragraphs and the headings.
textContent = []
for i in range(0,100):
paragraphs = page_content.find_all("p")[i].text
while True:
try:
headings = page_content.find_all("h2")[i].text
textContent.append(headings)
break
except IndexError:
break
textContent.append(paragraphs)
# this is the summariser
for i in range(len(textContent)):
textContent[i] = summarize("{}".format(i),textContent[i], count=2)
# write to file here
with open('test.txt', 'w') as f:
for item in textContent:
f.write("%s\n" % item)
f.write("\n")
Текущий вывод, который я получаю, таков: ['Toponymy ']
[' - \ xa0 в Европе \ xa0 (зеленый и \ xa0dark серый) - \ xa0 в Великобритании \ xa0 (зеленый) ']
[' История ']
['[5] [6] [7] Он разделяет сухопутные границы с Уэльсом на западе и Шотландией на севере.', 'Англия отделена от континентальной Европы Северным морем на востоке и Англией sh Канал на юг. ']
et c, et c, et c, а затем в конце есть просто группа абзацев, которые не могут быть соединены с заголовком.
Спасибо.