Question

ОБНОВЛЕНИЕ: это число 48 отображается в «Проверка» в Chrome, но не в «Просмотр источника страницы». Теперь понимаю, что это генерируется JavaScript, и поэтому я не могу его извлечь.

Это часть HTML, которую я пытаюсь очистить

<span class="value">
     <span class="base-entity-display-count">48</span> 
     "times"
</span>

Проблема в том, что я не могу получить этот номер 48.
Я думаю, что проблема в том, что вокруг 48 нет "".
Потому что я могу получить «временные» тексты без проблем, и единственное отличие, которое я вижу, это то, что около 48 »нет.

Это код, который работает для «раз»:

response.xpath('.//span[@class="value"]/text()').extract_first()
>>> u'<span class="value"><span class="base-entity-display-count"></span>times</span>'

Для 48:

response.xpath('.//span[@class="base-entity-display-count"]').extract_first()
>>> u'<span class="base-entity-display-count"></span>'

Как видите, 48 отсутствует.

У кого-нибудь есть какое-то решение или идея?

Granitosaurus · Answer 1 · 27 апреля 2018

Если вы посмотрите на тело страницы и поищите свой номер, вы увидите, что есть какой-то встроенный json.

Для решения этой проблемы вы можете:

найти код JSON с регулярным выражением:

import re
# select everything between "ap.boot.push(" and ");"
data = re.findall('app.boot.push\((\{.+?\})\);', response.body_as_unicode())

загрузите json и проанализируйте его с помощью python, чтобы найти нужные значения:

import json
data = [json.loads(d) for d in data]
for d in data:
    if d.get('name') == 'BaseEntityDetails':
        print(d['values']['displayCountText'])
#prints: 66

Scrap, скребущий текст в теге HTML, когда нет кавычек?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrap, скребущий текст в теге HTML, когда нет кавычек?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов