Я пытаюсь проанализировать содержимое в JavaScript.У меня есть идея, как это сделать, но я не совсем уверен.Я прочитал несколько примеров, и я думаю, что использование библиотеки re может быть правильным способом.
Вот мой код:
import requests import json import re from bs4 import BeautifulSoup url = r'https://login.live.com/login.srf?wa=wsignin1.0&rpsnv=13&rver=6.7.6643.0&wp=MBI_SSL&wreply=https:%2f%2faccount.xbox.com%2fen-us%2faccountcreation%3freturnUrl%3dhttps:%252f%252fwww.xbox.com:443%252fen-US%252f%26pcexp%3dtrue%26uictx%3dme%26rtc%3d1&lc=1033&id=292543&aadredir=1' s = requests.Session() soup = BeautifulSoup(s.get(url).content, 'html.parser') print(soup.find_all("script", type="text/javascript")[5].prettify())
Вот толькофрагмент разобранного контента.Я пытаюсь получить доступ к этим данным, в частности «значение»
<input type="hidden" name="PPFT" id="i0327" value="Dd**Lkp2L3EKDvGi3u6PEweEQUhvW*1jPrA3FgGSdeYoY8FERluiTqDef6QF3V5NkN*4yPg7vvxI3jo5oKPRelhfU3rYGFkxbxyvSBssiwFA!8LwocAbVDtrDq11Wk3F4LzRBQck3H4ca5r3Qhv8b0h4CxcEZgAnGAkcWE7fExGn1dBwGoY8sZVL2!ZBMjnJEanidLF!Yi975frkQ6Cys2oUb863xoLxdvZGuLQRxRLjjKubaCHlWQbD0b*Wzq49EA$$"/>
Я ценю все ответы заранее.Спасибо!
from bs4 import BeautifulSoup as bs import requests import re url = 'https://login.live.com/login.srf?wa=wsignin1.0&rpsnv=13&rver=6.7.6643.0&wp=MBI_SSL&wreply=https:%2f%2faccount.xbox.com%2fen-us%2faccountcreation%3freturnUrl%3dhttps:%252f%252fwww.xbox.com:443%252fen-US%252f%26pcexp%3dtrue%26uictx%3dme%26rtc%3d1&lc=1033&id=292543&aadredir=1' page = requests.get(url) html = bs(page.text, 'lxml') input = html.findAll('script', type="text/javascript")[5].prettify() value = re.findall(r'value=".+"/', input) #value = str(value).replace('value="', '').replace('"/','') value = str(value).replace('value="', '').replace('"/','').replace("['",'').replace("']",'') print(value) Output: DVSXQahhtomXS2Y4k2itS5MPP52mJgUkC7LH!W*1DmjHiWk*npajBfgXK5yp3*!bu3Wuvvs7xavleUV3nIbjLZHckj73QMe8wipwXhCqpXuUZQ2wnJvNYAVNCg9XxKPuIovp7!sLbumrufuYefyzM6UQLkMb5c7MuImDofVhLlKxpI7Pohe8sO2x8r63TtFCTDphWzqXKJE3B8DRK*AhMbFsmdP0sj2CXMZ7dyTfLJSr1zWBlaHTqJPLvhgzLSiaEg$$