Как очистить javascript в html, используя bs4, когда не обработан.(Нет селена) - PullRequest
0 голосов
/ 06 мая 2019

Я пытаюсь очистить страницу продукта для ее вариантов / идентификаторов, но не знаю, как в javascript в html с bs4.

Я не знаю, и хотел бы знать самый быстрый код, который может бытьвозможность извлечь эти данные.

import requests
from bs4 import BeautifulSoup as bs

session = requests.session()


def get_ava_sizes():
    global session
    endpoint = 'https://fasttimes.com.au/nike-sb-zoom-blazer-mid-iso-white-black-safety-orange-80817'
    response = session.get(endpoint)

    soup = bs(response.text, 'html.parser')
   #print(response.text)

    select =  soup.find('script', {'type':'text/javascript'})
    sizes = select.find_all('id')

    ava_sizes = []
    for size in sizes:
        size_id = size['']

    return ava_sizes

print(get_ava_sizes())

1 Ответ

0 голосов
/ 07 мая 2019

Как следует? Я предполагаю исключить "label": "Size" - первый идентификатор.

import requests
import re

r = requests.get('https://fasttimes.com.au/nike-sb-zoom-blazer-mid-iso-white-black-safety-orange-80817')
p = re.compile(r'"id":"(\d+)",', re.DOTALL)
ids = p.findall(r.text)[1:]
print(ids)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...