Question

Я пытаюсь получить список страниц, на которые ссылается страница (используя тег). При разборе страницы я использую BeautifulSoup:

page = opener.open(url)
soup = BeautifulSoup(page.read(), features='lxml')
links = soup.findAll("a", href=True)
for link in links:
    validLink = bool(re.match(r'^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)', link["href"]))
    if validLink:
         myset.append(link["href"])

Таким образом он ищет теги <a href>, чтобы найти ссылки и вернуть url связанной страницы. Но получающиеся URL в myset выглядят так:

Как мне отфильтровать ссылки, в которых есть хеш-знак ? Также, если я хочу отфильтровать рекламных ссылок или видео , ... какой элемент тега мне следует использовать?

QHarr · Answer 1 · 24 апреля 2019

Для ссылки, которая начинается с http или https (вам нужно только указать http), вы можете использовать селектор атрибутов с оператором начала с оператора

links = [item['href'] for item in soup.select('[href^=http]')]

Для рекламных ссылок / видео - хотите ли вы включить илиисключить?Нам нужно будет увидеть соответствующий HTML.Есть ли URL для использования?

Как получить только действительные URL-ссылки при разборе страницы с BeautifulSoup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить только действительные URL-ссылки при разборе страницы с BeautifulSoup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов