Как отделить этот конкретный атрибут от HTML? - PullRequest
0 голосов
/ 21 октября 2019
from sumy.nlp.tokenizers import Tokenizer
from sumy.parsers.html import HtmlParser
from sumy.summarizers.text_rank import TextRankSummarizer
import smtplib

LANGUAGE = "english"
SENTENCES_COUNT = 3

url = """https://www.bbc.co.uk/news/uk-50108531"""
parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))

summarizer = TextRankSummarizer()
summary = summarizer(parser.document, SENTENCES_COUNT)
for sentence in summarizer(parser.document, SENTENCES_COUNT):
    summary = str(sentence)

Это часть кода, который я использую для обобщения указанного URL. Как бы я приступил к анализу верхней статьи на сайте (то есть bbc.co.uk) каждый день?

Я заметил, что это атрибут, отображающий положение статей на bbc.co.uk: data-x-bbc-element-id="el-0, где el-0 - первый, el-1 - второй и т. Д.

Как расширить код для автоматической очистки URL-адреса элемента el-0?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...