Как начать чистку сайта с интерактивной карты? - PullRequest
0 голосов
/ 01 мая 2019

Я хочу построить скребок для следующего веб-сайта: https://railway.tools/#/en

На веб-сайте встроена интерактивная карта, и я хочу собрать данные, которые отображаются на веб-сайте.

Однако я не могу найти никакой полезной ссылки на файл .js или .html, который содержит данные, отображаемые в исходном коде.Имея это, я мог бы найти свой способ собрать правильные данные (но, поскольку я новичок в изучении, я также не уверен, что это будет правильный подход с самого начала).

Кто-нибудь знаетКак я могу получить доступ к основным данным, чтобы начать очистку веб-сайта?Можно ли вообще поцарапать этот сайт?

1 Ответ

0 голосов
/ 01 мая 2019

Вы можете получить геоданные из ответа json:

import requests

url = 'https://railway.tools/geo.json'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

jsonData = requests.get(url, headers=headers).json()
...