Python Beautifulsoup добавление дополнительных конечных тегов - PullRequest
1 голос
/ 17 августа 2010

Я использую Beautifulsoup для анализа веб-сайта

  request = urllib2.Request(url)
  response = urllib2.urlopen(request)
  soup = BeautifulSoup.BeautifulSoup(response)

Я использую его для просмотра таблицы.Проблема, с которой я сталкиваюсь, заключается в том, что BS добавляет дополнительный конечный тег для таблицы в html, который не существует, что я проверял с помощью: print soup.prettify ().Итак, один из тегов td уходит из таблицы, и я не могу его выбрать.

1 Ответ

1 голос
/ 17 августа 2010

Как насчет поиска непосредственно для каждого тега, вместо того, чтобы пытаться перейти в таблицу?

   for td in soup.find("td"):
        ...

Это не является необычным, чтобы найти тег tbody, вложенный в таблицу автоматически, когда его нет в коде.Либо вы можете написать его, либо просто перейти прямо к тегу tr или td.

...