автоматический просмотр веб-сайта - PullRequest
0 голосов
/ 26 февраля 2019

Я получил помощь, чтобы сканировать сайт law.go.kr с кодом ниже.
Я пытаюсь сканировать другие сайты, такие как http://lawbot.org, http://law.go.kr, https://casenote.kr.
Но проблема в том, что я не понимаю html ...
Iпонял весь код и как получить html-адрес для кода ниже, но он отличается на других сайтах ...
Я хочу знать, как использовать приведенный ниже код для сканирования других веб-страниц.

import requests
from bs4 import BeautifulSoup

if __name__ == '__main__':

    # Using request get 50 items from first page. pg=1 is page number, outmax=50 items 
per page
    response = requests.post(
        "http://law.go.kr/precScListR.doq=*&section=evtNm&outmax=79329&pg=1&fsort=21,10,30&precSeq=0&dtlYn=N")

    # Parse html using BeautifulSoup
    page = BeautifulSoup(response.text, "html.parser")

    # Go through all pages and collect posts numbers in items
    items = []
    for i in range(1, 2):
        # Get all links
        links = page.select("#viewHeightDiv .s_tit a")
        # Loop all links and collect post numbers
        for link in links:
            # Parse post number from "onclick" attribute
            items.append(''.join([n for n in link.attrs["onclick"] if n.isdigit()]))

    # Open all posts and collect in posts dictionary with keys: number, url and text
    posts = []
    for item in items:
        url = "http://law.go.kr/precInfoR.do?precSeq=%s&vSct=*" % item
        response = requests.get(url)
        parsed = BeautifulSoup(response.text, "html.parser")
        text = parsed.find('div', attrs={'id': 'contentBody'}).text     #전문 저장 
'id': 'contentBody', 제목제외 저장 'class': 'pgroup'
        title = parsed.select_one("h2").text
        posts.append({'number': item, 'url': url, 'text': text, 'title': title})

        with open("D://\LAWGO_DATA/" + item + '.txt', 'w', encoding='utf8') as f:
            f.write(text)

1 Ответ

0 голосов
/ 26 февраля 2019

Еще один пример для lawbot.org :

import requests
from bs4 import BeautifulSoup

base_url = 'http://lawbot.org'
search_url = base_url + '/?q=유죄'

response = requests.get(search_url)

page = BeautifulSoup(response.text, "html.parser")
lastPageNumber = int(page.select_one("li.page-item:not(.next):nth-last-child(2)").text)

casesList = []

for i in range(1, lastPageNumber + 1):
    if i > 1:
        response = requests.get(search_url + "&page=" + str(i))
        page = BeautifulSoup(response.text, "html.parser")

    cases = page.select("div.panre_center > ul.media-list li.panre_lists")
    for case in cases:
        title = case.findChild("h6").text
        caseDocNumber = case.findChild(attrs={"class": "caseDocNumber"}).text
        caseCourt = case.findChild(attrs={"class": "caseCourt"}).text
        case_url = base_url + case.findChild("a")['href']

        casesList.append({"title": title, "caseDocNumber": caseDocNumber, "caseCourt": caseCourt, "case_url": case_url})
        # print("title:{}, caseDocNumber:{}, caseCourt:{}, caseUrl:{}".format(title, caseDocNumber, caseCourt, case_url))

for case in casesList:
    response = requests.get(case["case_url"])
    page = BeautifulSoup(response.text, "html.parser")
    body = page.find(attrs={"class": "panre_body"}).text
    print(body)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...