Почему я не могу соскрести, используя красивый суп? - PullRequest
0 голосов
/ 23 сентября 2019

Мне нужно почистить единственную таблицу с этого сайта: https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu

Я использовал красивый суп и просьбы, но безуспешно.Не могли бы вы, ребята, подсказать мне, где я ошибаюсь?

mandal_url = "https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu"
r = requests.get(mandal_url, verify=False).content
soup = bs4.BeautifulSoup(r, 'lxml')
df = pd.read_html(str(soup.find('table',{"id":"gvAgricultureVillage"})))

Я получаю сообщение "Страница не найдена" во фрейме данных.Я не знаю, где я иду не так!

Ответы [ 3 ]

0 голосов
/ 23 сентября 2019

Попробуйте нажать на ссылку, которую вы пытаетесь удалить из недействительной ссылки.Когда я нажимаю предоставленную вами ссылку или ссылку, которую вы храните в mandal_url, обе страницы возвращают страницу «Страница не найдена».Таким образом, вы очищаете правильный путь, но URL, который вы предоставляете от до , скребок недействителен / больше не работает.

0 голосов
/ 23 сентября 2019

Мне не удалось получить доступ к сайту.Но вы можете прочитать формы на веб-странице напрямую, используя:

dfs = pd.read_html(your_url, header=0) 

В случае, если URL требует аутентификации, вы можете получить форму по:

r = requests.get(url_need_authentivation, auth=('myuser', 'mypasswd'))
pd.read_html(r.text, header=0)[1]

Это будетупростить ваш кодНадеюсь, это поможет!

0 голосов
/ 23 сентября 2019

Страница, вероятно, требует своего рода входа.Просматривая его самостоятельно, нажав на ссылку, я получаю image shown.

. Вам потребуется добавить файлы cookie / некоторые другие заголовки в запрос, чтобы они отображались как "вошедшие в систему".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...