Question

Страница: http://item.taobao.com/item.htm?id=13015989524
Вы можете увидеть ее исходный код.

В исходном коде существует следующий код

<a href="http://item.taobao.com/item.htm?id=13015989524" target="_blank">

Но когда я использую BeautifulSoup для чтенияИсходный код и выполните следующее

soup.findAll('a', href="http://item.taobao.com/item.htm?id=13015989524")

Возвращает [] пусто.Что он возвращает '[]'?

Avaris · Answer 1 · 11 марта 2012

Насколько я вижу, тег <a>, который вы пытаетесь найти, находится внутри тега <textarea>.BS не анализирует содержимое <textarea> как HTML, и это правильно, так как <textarea> не должен содержать HTML.Короче говоря, эта страница делает что-то отрывочное.

Если вам действительно нужно это получить, вы можете «обмануть» и снова проанализировать содержимое <textarea> и искать в них:

import urllib
from BeautifulSoup import BeautifulSoup as BS

soup = BS(urllib.urlopen("http://item.taobao.com/item.htm?id=13015989524"))

a = []
for textarea in soup.findAll("textarea"):
    textsoup = BS(textarea.text)  # parse the contents as html
    a.extend(textsoup.findAll("a", attrs={"href":"http://item.taobao.com/item.htm?id=13015989524"}))

for tag in a:
    print tag

# outputs
# <a href="http://item.taobao.com/item.htm?id=13015989524" target="_blank"><img ...
# <a href="http://item.taobao.com/item.htm?id=13015989524" title="901 ...

Blender · Answer 2 · 11 марта 2012

Используйте словарь для хранения атрибута:

soup.findAll('a', {
  'href': "http://item.taobao.com/item.htm?id=13015989524"
})

Красивый суп - Не могу найти теги

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Красивый суп - Не могу найти теги

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов