Question

Я пытаюсь разобрать немного HTML, и я хотел бы извлечь ссылку, которая соответствует определенному шаблону.Я использую метод find с регулярным выражением, но он не дает мне правильную ссылку.Вот мой фрагмент.Может кто-нибудь сказать мне, что я делаю неправильно?

from BeautifulSoup import BeautifulSoup
import re

html = """
<div class="entry">
    <a target="_blank" href="http://www.rottentomatoes.com/m/diary_of_a_wimpy_kid/">RT</a>
    <a target="_blank" href="http://www.imdb.com/video/imdb/vi2496267289/">Trailer</a> &ndash; 
    <a target="_blank" href="http://www.imdb.com/title/tt1196141/">IMDB</a> &ndash; 
</div>
"""

soup = BeautifulSoup(html)
print soup.find('a', href = re.compile(r".*title/tt.*"))['href']

Я должен получить вторую ссылку, но BS всегда возвращает первую ссылку.href первой ссылки даже не соответствует моему регулярному выражению, так почему оно возвращает его?

Спасибо.

miku · Answer 1 · 23 июля 2010

Не могу ответить на ваш вопрос, но в любом случае ваш (изначально) опубликованный код имеет опечатку при импорте. Изменение

import BeautifulSoup

до

from BeautifulSoup import BeautifulSoup

Тогда ваш вывод (с использованием Beautifulsoup версии 3.1.0.1) будет:

http://www.imdb.com/title/tt1196141/

Невозможно получить правильную ссылку в BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно получить правильную ссылку в BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов