Question

Я скребу стенограммы президентских дебатов.Я заметил, что когда мой скребок тянет элементы html, он никогда не тянет тег конца абзаца (</p>).

например,

Проверка источника в браузере Developer > View source">

url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
req = urllib.request.Request(url_to_scrape)
resp = urllib.request.urlopen(req)
resp.read()

Я полагаю, что происходит одна из двух вещей:

urllib почему-то сбрасывается при закрытиитеги (только для абзацев, остальные в порядке)
Необработанный источник не включает закрывающие теги, и браузер заполняет их.

Как выяснить, какиеодин это, а потом исправить?

David Culbreth · Answer 1 · 28 сентября 2018

Можете ли вы проверить фактический пакет, полученный Chrome?В некоторых случаях Chrome обнаружит и исправит небольшие пропуски, подобные этому, чтобы отобразить страницу, даже если их нет в пакете.Я предполагаю, что Chrome это исправил, а фактический источник плохой.

Urllib возвращает HTML, но не закрывает теги абзаца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Urllib возвращает HTML, но не закрывает теги абзаца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы