Как я могу нормализовать URL в Python - PullRequest
69 голосов
/ 23 сентября 2008

Я хотел бы знать, нормализую ли я URL в python.

Например, если у меня есть строка URL, например: "http://www.example.com/foo goo / bar.html"

Мне нужна библиотека на python, которая преобразует лишний пробел (или любой другой ненормализованный символ) в правильный URL.

Ответы [ 8 ]

67 голосов
/ 23 сентября 2008

Посмотрите на этот модуль: werkzeug.utils . (сейчас в werkzeug.urls)

Функция, которую вы ищете, называется "url_fix" и работает так:

>>> url_fix(u'http://de.wikipedia.org/wiki/Elf (Begriffsklärung)')
'http://de.wikipedia.org/wiki/Elf%20%28Begriffskl%C3%A4rung%29'

Это реализовано в Werkzeug следующим образом:

import urllib
import urlparse

def url_fix(s, charset='utf-8'):
    """Sometimes you get an URL by a user that just isn't a real
    URL because it contains unsafe characters like ' ' and so on.  This
    function can fix some of the problems in a similar way browsers
    handle data entered by the user:

    >>> url_fix(u'http://de.wikipedia.org/wiki/Elf (Begriffsklärung)')
    'http://de.wikipedia.org/wiki/Elf%20%28Begriffskl%C3%A4rung%29'

    :param charset: The target charset for the URL if the url was
                    given as unicode string.
    """
    if isinstance(s, unicode):
        s = s.encode(charset, 'ignore')
    scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
    path = urllib.quote(path, '/%')
    qs = urllib.quote_plus(qs, ':&=')
    return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))
57 голосов
/ 10 мая 2009

Реальное исправление в Python 2.7 для этой проблемы

Правильное решение было:

 # percent encode url, fixing lame server errors for e.g, like space
 # within url paths.
 fullurl = quote(fullurl, safe="%/:=&?~#+!$,;'@()*[]")

Для получения дополнительной информации см. Issue918368: "urllib не исправляет возвращенные URL-адреса сервера"

24 голосов
/ 23 сентября 2008

использовать urllib.quote или urllib.quote_plus

Из документации urllib :

цитата (строка [, сейф])

Заменить специальные символы в строке используя escape "% xx". Буквы, цифры и символы "_.-" никогда не цитируется Дополнительный сейф параметр указывает дополнительный символы, которые не должны быть в кавычках - его значением по умолчанию является '/'.

Пример: quote('/~connolly/') выход '/%7econnolly/'.

quote_plus (string [, safe])

Как и quote (), но также заменяет пробелы со знаком плюс, как требуется для цитирования Значения HTML-формы. Плюс в исходная строка экранируется, если они включены в сейф. Это также не имеет безопасного значения по умолчанию '/'.

РЕДАКТИРОВАТЬ: использование urllib.quote или urllib.quote_plus для всего URL будет искажать его, как указывает @ ΤΖΩΤΖΙΟΥ:

>>> quoted_url = urllib.quote('http://www.example.com/foo goo/bar.html')
>>> quoted_url
'http%3A//www.example.com/foo%20goo/bar.html'
>>> urllib2.urlopen(quoted_url)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "c:\python25\lib\urllib2.py", line 124, in urlopen
    return _opener.open(url, data)
  File "c:\python25\lib\urllib2.py", line 373, in open
    protocol = req.get_type()
  File "c:\python25\lib\urllib2.py", line 244, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: http%3A//www.example.com/foo%20goo/bar.html

@ ΤΖΩΤΖΙΟΥ предоставляет функцию, которая использует urlparse.urlparse и urlparse.urlunparse для анализа URL-адреса и только кодирования пути. Это может быть более полезным для вас, хотя, если вы создаете URL-адрес из известного протокола и хоста, но с подозрительным путем, вы, вероятно, могли бы сделать то же самое, чтобы избежать urlparse и просто заключить в кавычки подозрительную часть URL-адреса, объединяя известные безопасные части.

12 голосов
/ 07 июня 2009

Поскольку эта страница является лучшим результатом поиска Google по этой теме, я думаю, что стоит упомянуть некоторую работу, которая была проделана над нормализацией URL с помощью Python, которая выходит за рамки символов пробела урленкодирования. Например, работа с портами по умолчанию, регистр символов, отсутствие косой черты и т. Д.

Когда разрабатывался формат синдикации Atom, шла дискуссия о том, как нормализовать URL-адреса в канонический формат; это описано в статье PaceCanonicalIds в вики Atom / Pie. Эта статья содержит несколько хороших тестовых примеров.

Я полагаю, что одним из результатов этого обсуждения стала библиотека urlnorm.py Марка Ноттингема, которую я использовал с хорошими результатами в нескольких проектах. Однако этот скрипт не работает с URL-адресом, указанным в этом вопросе. Поэтому лучшим выбором может быть версия Сэма Руби urlnorm.py , которая обрабатывает этот URL, и все вышеупомянутые тестовые случаи из вики Atom.

10 голосов
/ 23 сентября 2008
import urlparse, urllib
def myquote(url):
    parts= urlparse.urlparse(url)
    return urlparse.urlunparse(parts[:2] + urllib.quote(parts[2]) + parts[3:])

Цитирует только компонент пути.

В противном случае вы можете сделать: urllib.quote(url, safe=":/")

3 голосов
/ 16 декабря 2009

Просто к вашему сведению, urlnorm перешел на github: http://gist.github.com/246089

1 голос
/ 05 марта 2017

Действительно для Python 3.5:

import urllib.parse

urllib.parse.quote([your_url], "\./_-:")

пример:

import urllib.parse

print(urllib.parse.quote("http://www.example.com/foo goo/bar.html", "\./_-:"))

вывод будет http://www.example.com/foo%20goo/bar.html

Шрифт: https://docs.python.org/3.5/library/urllib.parse.html?highlight=quote#urllib.parse.quote

1 голос
/ 13 июня 2014

Я сталкиваюсь с такой проблемой: нужно указывать только пробел.

fullurl = quote(fullurl, safe="%/:=&?~#+!$,;'@()*[]") действительно помогите, но это слишком сложно.

Итак, я использовал простой способ: url = url.replace(' ', '%20'), он не идеален, но это самый простой способ, и он подходит для этой ситуации.

...