Question

У меня есть регулярное выражение, links = re.compile('<a(.+?)href=(?:"|\')?((?:https?://|/)[^\'"]+)(?:"|\')?(.*?)>(.+?)</a>',re.I).findall(data)

, чтобы найти ссылки в каком-то html, на определенный html уходит много времени, какой-либо совет по оптимизации?

Тот, который задыхаетсяis http://freeyourmindonline.net/Blog/

Mark Byers · Answer 1 · 31 мая 2010

Я бы предложил использовать BeautifulSoup для этой задачи.

Daenyth · Answer 2 · 31 мая 2010

Есть ли причина, по которой вы не используете анализатор html?Используя что-то вроде BeautifulSoup, вы можете получить все ссылки без использования такого ужасного регулярного выражения.

ony · Answer 3 · 31 мая 2010

Как насчет более прямой обработки href's?

re_href = re.compile(r"""<\s*a(?:[^>]+?)href=("[^"]*(\\"[^"]*)*"|'[^']*(\\'[^']*)*'|[^\s>]*)[^>]*>""", re.I)

Это занимает около 0,007 секунды по сравнению с findall, что на моем компьютере занимает 38,694 секунды.

Оптимизация ссылок на Python для соответствия регулярному выражению

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизация ссылок на Python для соответствия регулярному выражению

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов