Как извлечь новостную статью из html ссылок тегов anckor - PullRequest
0 голосов
/ 27 февраля 2020

кто-то, кто может помочь мне, как извлечь текст новости, доступный в следующих тегах.

<a href="tigrinya/news-50612332.html" class="faux-block-link__overlay-link" tabindex="-1" aria-hidden="true"> ሕሉፍ ወልፊ ሞባይል፡ ንመንእሰያት ራዕዲ ከምዝፈጥረሎም ተገሊጹ</a>" and "
<a href="tigrinya/news-50605565.html" class="title-link">
  <h3 class="title-link__title">
    <span class="title-link__title-text">ሃገራዊ ቦርድ መረጻ ኢትዮጵያ ንብልጽግና ፓርቲ ኣይመዝገብኩዎን ኢሉ</span>
  </h3>
</a>

1 Ответ

0 голосов
/ 27 февраля 2020

использовать python библиотеку BeautifulSoup для анализа HTML данных

из bs4 import BeautifulSoup

data = "" "ሕሉፍ ወልፊ ሞባይል ንመንእሰያት ራዕዲ ከምዝፈጥረሎም ተገሊጹ "и" ሃገራዊ ቦርድ መረጻ ኢትዮጵያ ንብልጽግና ፓርቲ ኣይመዝገብኩዎን "" ""

soup = BeautifulSoup (данные, 'l xml')

print (soup.find ('span', { 'class': 'title-link__title-text'}). text)

...