У меня есть проект, использующий среду очистки экрана python scrapy
. Я создал паука, который загружает все теги <script>
и обрабатывает второй. Это связано с тем, что в собранных мной тестовых данных необходимые данные были во втором теге <script>
.
Но теперь у меня проблема, в то время как некоторые страницы содержат данные, которые я хочу, в некоторых других тегах скрипта (# 3 или # 4). Еще одно препятствие заключается в том, что в основном во второй строке второго тега javascript есть нужный JSON. Но в зависимости от страницы это также может быть 3-я или 4-я строка.
Рассмотрим этот простой HTML-файл:
<html>
<head>
<title> Test </title>
</head>
<body>
<p>
This is a text
</p>
<script type="text/javascript">
var myJSON = {
a: "a",
b: 42
}
</script>
</body>
</html>
Я могу получить доступ к myJSON.b
и получить 42
, еслиЯ открываю эту страницу в своем браузере (firefox) и перехожу к инструментам разработчика и console.log(myJSON.b)
Так что мой вопрос: как мне извлечь переменную JavaScript или JSON из страницы scrap-fetched-page?