Разбор URL из обычного текста - PullRequest
1 голос
/ 29 апреля 2010

Как можно проанализировать URL-адреса из любого простого текста (не ограничиваясь атрибутами href в тегах)?

Будут оценены любые примеры кода на Python.

Ответы [ 2 ]

2 голосов
/ 29 апреля 2010

Вы можете использовать Регулярное выражение для анализа строки.

Посмотрите на этот ранее заданный вопрос: Какой самый чистый способ извлечь URL из строки с помощью Python?

1 голос
/ 29 апреля 2010

См. Блог Яна Гойваэрта .

Так что пример кода Python может выглядеть как

result = re.findall(r"\b(?:(?:https?|ftp|file)://|www\.|ftp\.)[-A-Z0-9+&@#/%=~_|$?!:,.]*[A-Z0-9+&@#/%=~_|$]", subject)
...