Очистка веб-страницы с использованием ссылок href - PullRequest
0 голосов
/ 29 августа 2018

Я очищаю эту страницу ("http://mahaprantikssksamaj.com/ssk-samaj-maharashtras.aspx"). Я сохраняю действительные URL-адреса и прошу перенаправить на следующую страницу и очищать данные следующей страницы для каждого действительного URL-адреса.

Данные страницы хранятся в таблице, и я получаю эту ошибку: "" AttributeError: у объекта ResultSet нет атрибута "найти". Вы, вероятно, рассматриваете список предметов как отдельный предмет. Вы вызывали find_all (), когда хотели вызвать find ()? «» Мой код здесь:

 from bs4 import BeautifulSoup
 import requests
  r = requests.get('http://mahaprantikssksamaj.com/ssk-samaj-maharashtras.aspx')
  soup = BeautifulSoup(r.text, 'html.parser')
      for i in range(36):
      print(i)
      url = 'http://mahaprantikssksamaj.com/ssk-prantik-members.aspx?id={}'.format(i)
      r = requests.get(url)
      web = BeautifulSoup(r.content,"html.parser")
      table= web.findAll("table",id="DGORG") 
      print(table)
      table_body = table.find('tbody')
      rows = table_body.find_all('tr')
          for tr in rows:
           cols = tr.find_all('td')
           for td in cols:
              print (td)

печать (таблица) дает о / п это:

  <div class="memcss">
  <table  border="1" style="width:90%;padding:10px;margin:0px 0px 20px 
  20px;box-shadow:2px 2px 2px #000000">
  <tr>
  <td colspan="2" style="text-align:center"><h5>Mr. Jaydeo Mahadeosa 
  Pawar</h5></td>
  </tr>
  <tr>
  <td colspan="2" style="text-align:center"><h6>Secretory</h6></td>
  </tr>
  <tr>
  <td style="width:25%;height:30px;text-align:right">Address : </td>
  <td> Pune</td>
  </tr>
  <tr>
  <td style="width:20%;height:30px;text-align:right">City : </td>
  <td> Pune</td>
  </tr>
  <tr>
  <td style="width:20%;height:30px;text-align:right">Mobile : </td>
  <td> </td>
  </tr>
  </table>
  </div>

  </td>
  </tr><tr>
  <td>

Попытка сохранить только имя, обозначение, адрес и номер мобильного телефона в CSV-файле. Может кто-нибудь, пожалуйста, помогите, где я не прав. Спасибо заранее.

Ответы [ 2 ]

0 голосов
/ 29 августа 2018

Чтобы получить весь контент из каждой таблицы, связанной со ссылками view members на целевой странице, вы можете выполнить следующий подход:

from bs4 import BeautifulSoup
from urllib.parse import urljoin
import requests

link = "http://mahaprantikssksamaj.com/ssk-samaj-maharashtras.aspx"

res = requests.get(link)
soup = BeautifulSoup(res.text, 'html.parser')
for item in soup.select("a[style$='text-decoration:none']"):
    req = requests.get(urljoin(link,item.get("href")))
    sauce = BeautifulSoup(req.text,"html.parser")
    for elem in sauce.select(".memcss table tr"):
        data = [item.get_text(strip=True) for item in elem.select("td")]
        print(data)

Вывод как:

['Shri. Narsinhasa Narayansa Kolhapure']
['Chairman']
['Address :', 'Ahamadnagar']
['City :', 'Ahamadnagar']
['Mobile :', '2425577']
0 голосов
/ 29 августа 2018
from bs4 import BeautifulSoup
import requests

r = requests.get('http://mahaprantikssksamaj.com/ssk-samaj-maharashtras.aspx')
soup = BeautifulSoup(r.text, 'html.parser')
for i in range(36):
    print(i)
    url = 'http://mahaprantikssksamaj.com/ssk-prantik-members.aspx?id={}'.format(i)
    r = requests.get(url)
    web = BeautifulSoup(r.content, "html.parser")
    table = web.find("table", id="DGORG")
    print(table)
    rows = table.find_all('tr')
    for tr in rows:
        cols = tr.find_all('td')
        for td in cols:
            print(td)

Изменения

Используйте table= web.findAll("table",id="DGORG") используйте find вместо findAll

и когда мы проверяем веб-сайт, он показывает table имеет tbody. Но это может быть недоступно в исходном коде. Чтобы подтвердить это перейдите на view page source.

как достать из стола прекрасный суп из питона?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...