from sumy.nlp.tokenizers import Tokenizer
from sumy.parsers.html import HtmlParser
from sumy.summarizers.text_rank import TextRankSummarizer
import smtplib
LANGUAGE = "english"
SENTENCES_COUNT = 3
url = """https://www.bbc.co.uk/news/uk-50108531"""
parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))
summarizer = TextRankSummarizer()
summary = summarizer(parser.document, SENTENCES_COUNT)
for sentence in summarizer(parser.document, SENTENCES_COUNT):
summary = str(sentence)
Это часть кода, который я использую для обобщения указанного URL. Как бы я приступил к анализу верхней статьи на сайте (то есть bbc.co.uk) каждый день?
Я заметил, что это атрибут, отображающий положение статей на bbc.co.uk: data-x-bbc-element-id="el-0
, где el-0 - первый, el-1 - второй и т. Д.
Как расширить код для автоматической очистки URL-адреса элемента el-0?