Получение имен файлов, соответствующих расширению, используя BeautifulSoup - PullRequest
1 голос
/ 30 мая 2011

Я пытаюсь проанализировать HTML-страницу, используя BeautifulSoup с текстовыми файлами, заканчивающимися расширением .txt.Я хочу проанализировать HTML и извлечь строку, которая заканчивается на .txt.

Все такие строки находятся внутри тега <a href>, и вот несколько примеров:

<a href = "foo.txt">

<a href = "bar.txt">

Как мне получить foo.txt и bar.txt.

Я сделал это:

>>> links = soup.findAll('a')

Но я не могу найти, как извлечь полную строку ... Есть предложения?

1 Ответ

5 голосов
/ 30 мая 2011

BeautifulSoup принимает регулярные выражения в виде параметров find() и findAll() Это должно работать:

links = soup.findAll(href=re.compile("\.txt$"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...