Question

Я использую BeautifulSoup для анализа некоторых HTML. Вот содержание:

<tr> 
<th>Your provider:</th> 
<td> 

<img src="/isp_logos/la-la-la.ico" alt=""/> 
 <a href="/isp/SomeProvider"> 
 Provider name </a> 
 &nbsp;
 <a href="http://*/isp-comparer/?isp=000000"> 
 </a> 
</td> 
</tr>

Мне нужно получить SomeProvider текст по ссылке. Мой код:

contentSoup = BeautifulSoup(ThatHtml)
print contentSoup.findAll('a', href=re.compile('/isp/(.*)'))

Результат - пустой массив, почему? Может быть есть другие способы?

Kevin · Answer 1 · 17 июля 2010

С вашим отправленным кодом и вводом я получаю:

[<a href="/isp/SomeProvider">   Provider name </a>]

как возвращение массива. Используете ли вы новейшую версию BeautifulSoup 3.1.x? У меня действительно была та же проблема, но оказалось, что я скачал версию BeautifulSoup 2.x, думая, что 2.x означает, что она совместима с python 2.x.

Предполагая, что первый содержит SomeProvider, вы можете просто использовать:

contentSoup.a

чтобы извлечь этот тег.

Href ловить

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Href ловить

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов