Question

Я пытаюсь проанализировать HTML-страницу, используя BeautifulSoup с текстовыми файлами, заканчивающимися расширением .txt.Я хочу проанализировать HTML и извлечь строку, которая заканчивается на .txt.

Все такие строки находятся внутри тега <a href>, и вот несколько примеров:

<a href = "foo.txt">

<a href = "bar.txt">

Как мне получить foo.txt и bar.txt.

Я сделал это:

>>> links = soup.findAll('a')

Но я не могу найти, как извлечь полную строку ... Есть предложения?

vartec · Answer 1 · 30 мая 2011

BeautifulSoup принимает регулярные выражения в виде параметров find() и findAll() Это должно работать:

links = soup.findAll(href=re.compile("\.txt$"))

Получение имен файлов, соответствующих расширению, используя BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение имен файлов, соответствующих расширению, используя BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов