Question

Учитывая ссылку HTML, как

<a href="urltxt" class="someclass" close="true">texttxt</a>

как я могу изолировать URL и текст?

Обновление

Я пользуюсь Beautiful Soup и не могу понять, как это сделать.

Я сделал

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

links = soup.findAll('a')

for link in links:
    print "link content:", link.content," and attr:",link.attrs

я получаю

*link content: None  and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root    /support.asp')]*  ...
...

Почему я пропускаю контент?

редактировать: уточнено «застрял» в соответствии с рекомендациями:)

Harley Holcombe · Answer 1 · 13 ноября 2008

Использование Красивый суп . Делать это самостоятельно сложнее, чем кажется, вам лучше использовать проверенный и проверенный модуль.

EDIT:

Я думаю, что вы хотите:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read())

Кстати, плохая идея - пытаться открыть там URL-адрес, так как если он пойдет не так, он может стать уродливым.

РЕДАКТИРОВАТЬ 2:

Это должно показать вам все ссылки на странице:

import urlparse, urllib
from BeautifulSoup import BeautifulSoup

url = "http://www.example.com/index.html"
source = urllib.urlopen(url).read()

soup = BeautifulSoup(source)

for item in soup.fetchall('a'):
    try:
        link =  urlparse.urlparse(item['href'].lower())
    except:
        # Not a valid link
        pass
    else:
        print link

Jerub · Answer 2 · 13 ноября 2008

Вот пример кода, показывающий получение атрибутов и содержимого ссылок:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
for link in soup.findAll('a'):
    print link.attrs, link.contents

Tom · Answer 3 · 13 ноября 2008

Похоже, у вас есть две проблемы:

link.content s , не link.content
attrs - это словарь, а не строка. Он содержит пары ключ-значение для каждого атрибута в элементе HTML. link.attrs ['href'] даст вам то, что вы, похоже, ищете, но вы захотите обернуть это в проверку, если вы встретите тег без атрибута href.

nickf · Answer 4 · 13 ноября 2008

Хотя я полагаю, что другие могут быть правы, указав вам на использование Beautiful Soup, они могут нет, и использование внешней библиотеки может оказаться чрезмерным для вас. цели. Вот регулярное выражение, которое будет делать то, что вы просите.

/<a\s+[^>]*?href="([^"]*)".*?>(.*?)<\/a>/

Вот что соответствует:

'<a href="url" close="true">text</a>'
// Parts: "url", "text"

'<a href="url" close="true">text<span>something</span></a>'
// Parts: "url", "text<span>something</span>"

Если бы вы хотели получить просто текст (например, "themesomething" во втором примере выше), я бы просто запустил еще одно регулярное выражение, чтобы убрать что-нибудь между заключенными в скобки.

Разложение HTML для ссылки на текст и цель

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разложение HTML для ссылки на текст и цель

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов