Web Scraping с BeautifulSoup и Python: не удалось извлечь текст - PullRequest
0 голосов
/ 17 марта 2020

Я пытаюсь отказаться от сайта . Но мне не удалось извлечь описание каждого элемента. Вот мой код:

from bs4 import BeautifulSoup
import requests

url = "http://engine.ddtc.co.id/putusan-pengadilan-pajak"
response = requests.get(url)
data = response.text
soup = BeautifulSoup(data, 'html.parser')
puts =soup.find_all("div",{"class":"p3-search-item"})
for put in puts:
    title = put.find("div", {"class":"p3-title"}).text
    cat = put.find("div", {"class":"p3-category"}).text
    date = put.find("div", {"class":"search-result-item-meta"}).text
    link = put.find("a").get("href")
    put_response = requests.get(link)
    put_data = put_response.text
    put_soup = BeautifulSoup(put_data, "html.parser")
    put_description = put_soup.find("div",{"id": "modal-contents-pp"}).text
    print("Judul Putusan:", title, "\nKategori:", cat, "\nTanggal:", date, "\nLink:", link, "\nDescription:", put_description)

Так что мне не удалось извлечь описание. В описании только пустые слова и несколько слов. Полное описание может быть показано, если мы нажмем на ссылку каждого элемента. Очень ценю любую помощь.

1 Ответ

0 голосов
/ 17 марта 2020

Я думаю, вам нужно изменить поле put_description:

from bs4 import BeautifulSoup
import requests

url = "http://engine.ddtc.co.id/putusan-pengadilan-pajak"
response = requests.get(url)
data = response.text
soup = BeautifulSoup(data, 'html.parser')
puts =soup.find_all("div",{"class":"p3-search-item"})
for put in puts:
    title = put.find("div", {"class":"p3-title"}).text
    cat = put.find("div", {"class":"p3-category"}).text
    date = put.find("div", {"class":"search-result-item-meta"}).text
    link = put.find("a").get("href")
    put_response = requests.get(link)
    put_data = put_response.text
    put_soup = BeautifulSoup(put_data, "html.parser")
    put_description = put_soup.find("div",{"class": "p3-desc"}).text
    print("Judul Putusan:", title, "\nKategori:", cat, "\nTanggal:", date, "\nLink:", link, "\nDescription:", put_description)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...