Извлекать только первый контент из URL, содержащего несколько сообщений на Tumblr, с помощью PYTHON - PullRequest
0 голосов
/ 24 августа 2018

Я пытаюсь извлечь только фактический контент / текст из заданного входного URL, используя пакет газеты в python3.Я преуспел в этом, но один из моих URL-адресов состоит из нескольких сообщений Tumblr на одной странице.

В приведенном ниже URL-адресе я хочу только содержимое первого сообщения, т. Е. Параграфа, начинающегося с " Результат выборов 2018 года в Ассамблее Карнатаки близок к тому, чтобы быть известным, поскольку подсчет голосов идет во вторник, "

https://poonamparekh.tumblr.com/post/173920050130/karnataka-election-results-modi-rallies-set-to

В моей работе при извлечении контента с указанного выше URL вместо первого поста я получаю контент 6-го поста в качестве своего вывода.Но это не то, что мне нужно.Я требую, чтобы первый пост был моим выводом.Может ли кто-нибудь помочь мне в достижении этого?

Вот мой код:

from newspaper import Article

url="https://poonamparekh.tumblr.com/post/173920050130/karnataka-election-results-modi-rallies-set-to"
print(url)
article = Article(url, language='en')
article.download()
article.download_state
print('articlee_state : ',article.download_state)

if article.download_state == 2:
  try:
    article.parse()
    result=article.text[0]
    print(result[:150])
    if result=='':
      print('----MESSAGE : No description written for this post')
   except Exception as e:
    print(e)
...