Urllib возвращает HTML, но не закрывает теги абзаца - PullRequest
0 голосов
/ 27 сентября 2018

Я скребу стенограммы президентских дебатов.Я заметил, что когда мой скребок тянет элементы html, он никогда не тянет тег конца абзаца (</p>).

например,

Проверка источника в браузере image Developer > View source">

url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
req = urllib.request.Request(url_to_scrape)
resp = urllib.request.urlopen(req)
resp.read()

Python results

Я полагаю, что происходит одна из двух вещей:

  1. urllib почему-то сбрасывается при закрытиитеги (только для абзацев, остальные в порядке)
  2. Необработанный источник не включает закрывающие теги, и браузер заполняет их.

Как выяснить, какиеодин это, а потом исправить?

1 Ответ

0 голосов
/ 28 сентября 2018

Можете ли вы проверить фактический пакет, полученный Chrome?В некоторых случаях Chrome обнаружит и исправит небольшие пропуски, подобные этому, чтобы отобразить страницу, даже если их нет в пакете.Я предполагаю, что Chrome это исправил, а фактический источник плохой.

...