Как извлечь данные ответа XHR с веб-сайта? - PullRequest
0 голосов
/ 04 октября 2019

Я хочу получить ссылку на документ в формате json, который некоторые веб-страницы загружают после загрузки. Например, на этой веб-странице :

![![introducir la descripción de la imagen aquí

Но это может быть совершенно другой документ на другой веб-странице . К сожалению, я не могу найти ссылку на исходной странице с супом Beautfiul.

Пока я пробовал это:

import requests
import json

data = {
  "Device[udid]": "",
  "API_KEY": "",
  "API_SECRET": "",
  "Device[change]": "",
  "fbToken": ""
}

headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"
}

url = "https://data.electionsportal.ge/en/event_type/1/event/38/shape/69898/shape_type/1?data_type=official"

r = requests.post(url, data=data, headers=headers)
data = r.json()

Но он возвращает ошибку декодирования json:

---------------------------------------------------------------------------
JSONDecodeError                           Traceback (most recent call last)
<ipython-input-72-189954289109> in <module>
     17 
     18 r = requests.post(url, data=data, headers=headers)
---> 19 data = r.json()
     20 

C:\ProgramData\Anaconda3\lib\site-packages\requests\models.py in json(self, **kwargs)
    895                     # used.
    896                     pass
--> 897         return complexjson.loads(self.text, **kwargs)
    898 
    899     @property

C:\ProgramData\Anaconda3\lib\json\__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    346             parse_int is None and parse_float is None and
    347             parse_constant is None and object_pairs_hook is None and not kw):
--> 348         return _default_decoder.decode(s)
    349     if cls is None:
    350         cls = JSONDecoder

C:\ProgramData\Anaconda3\lib\json\decoder.py in decode(self, s, _w)
    335 
    336         """
--> 337         obj, end = self.raw_decode(s, idx=_w(s, 0).end())
    338         end = _w(s, end).end()
    339         if end != len(s):

C:\ProgramData\Anaconda3\lib\json\decoder.py in raw_decode(self, s, idx)
    353             obj, end = self.scan_once(s, idx)
    354         except StopIteration as err:
--> 355             raise JSONDecodeError("Expecting value", s, err.value) from None
    356         return obj, end

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

Ответы [ 2 ]

0 голосов
/ 06 октября 2019

Это работает для обеих ссылок в вашем посте:

from bs4 import BeautifulSoup
import requests
url = 'https://data.electionsportal.ge/en/event_type/1/event/38/shape/69898/shape_type/1?data_type=official'
r = requests.get(url)
soup = BeautifulSoup(r.text)
splits = [item.split('=',1)[-1] for item in str(soup.script).split(';')]
filtered_splits = [item.replace('"','') for item in splits if 'json' in item and not 'xxx' in item]
links_to_jsons = ["https://data.electionsportal.ge" + item for item in    filtered_splits]
for item in links_to_jsons:
   r = requests.get(item)
   print(r.json())       # change as you want      

Кстати. Я предполагаю, что вы можете создать ссылки JSON, изменив число 69898 на число, которое находится в аналогичной позиции на другой веб-странице (но все же data.electionsportal.ge).

0 голосов
/ 04 октября 2019

JSON , который вы пытаетесь найти в содержимом HTML, загружается клиентом через javascript с XMLHttpRequests. Это означает, что вы не сможете использовать BeautifulSoup для поиска тега в HTML-файле, содержащем URL-адрес, он находится внутри блока <script> или загружен извне.

Кроме того, вы пытаетесь преобразоватьвеб-страница, написанная на HTML в JSON. И попытка доступа к ключу ( coins ), который нигде не определен внутри веб-страницы или в содержимом JSON.

Решение

  1. Загрузите этот JSON напрямую, не пытаясь найти URL JSON с BeautifulSoup на вышеупомянутом веб-сайте. Таким образом, вы сможете без проблем запускать requests.json().

  2. В противном случае, посмотрите Selenium , это веб-драйвер, который позволяет запускать javascript.

Надеюсь, это все прояснит.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...