Question

Я хотел бы знать, нормализую ли я URL в python.

Например, если у меня есть строка URL, например: "http://www.example.com/foo goo / bar.html"

Мне нужна библиотека на python, которая преобразует лишний пробел (или любой другой ненормализованный символ) в правильный URL.

Armin Ronacher · Answer 1 · 23 сентября 2008

Посмотрите на этот модуль: werkzeug.utils . (сейчас в werkzeug.urls)

Функция, которую вы ищете, называется "url_fix" и работает так:

>>> url_fix(u'http://de.wikipedia.org/wiki/Elf (Begriffsklärung)')
'http://de.wikipedia.org/wiki/Elf%20%28Begriffskl%C3%A4rung%29'

Это реализовано в Werkzeug следующим образом:

import urllib
import urlparse

def url_fix(s, charset='utf-8'):
    """Sometimes you get an URL by a user that just isn't a real
    URL because it contains unsafe characters like ' ' and so on.  This
    function can fix some of the problems in a similar way browsers
    handle data entered by the user:

    >>> url_fix(u'http://de.wikipedia.org/wiki/Elf (Begriffsklärung)')
    'http://de.wikipedia.org/wiki/Elf%20%28Begriffskl%C3%A4rung%29'

    :param charset: The target charset for the URL if the url was
                    given as unicode string.
    """
    if isinstance(s, unicode):
        s = s.encode(charset, 'ignore')
    scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
    path = urllib.quote(path, '/%')
    qs = urllib.quote_plus(qs, ':&=')
    return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))

Oleg Sakharov · Answer 2 · 10 мая 2009

Реальное исправление в Python 2.7 для этой проблемы

Правильное решение было:

 # percent encode url, fixing lame server errors for e.g, like space
 # within url paths.
 fullurl = quote(fullurl, safe="%/:=&?~#+!$,;'@()*[]")

Для получения дополнительной информации см. Issue918368: "urllib не исправляет возвращенные URL-адреса сервера"

Blair Conrad · Answer 3 · 23 сентября 2008

использовать urllib.quote или urllib.quote_plus

Из документации urllib :

цитата (строка [, сейф])

Заменить специальные символы в строке используя escape "% xx". Буквы, цифры и символы "_.-" никогда не цитируется Дополнительный сейф параметр указывает дополнительный символы, которые не должны быть в кавычках - его значением по умолчанию является '/'.

Пример: quote('/~connolly/') выход '/%7econnolly/'.

quote_plus (string [, safe])

Как и quote (), но также заменяет пробелы со знаком плюс, как требуется для цитирования Значения HTML-формы. Плюс в исходная строка экранируется, если они включены в сейф. Это также не имеет безопасного значения по умолчанию '/'.

РЕДАКТИРОВАТЬ: использование urllib.quote или urllib.quote_plus для всего URL будет искажать его, как указывает @ ΤΖΩΤΖΙΟΥ:

>>> quoted_url = urllib.quote('http://www.example.com/foo goo/bar.html')
>>> quoted_url
'http%3A//www.example.com/foo%20goo/bar.html'
>>> urllib2.urlopen(quoted_url)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "c:\python25\lib\urllib2.py", line 124, in urlopen
    return _opener.open(url, data)
  File "c:\python25\lib\urllib2.py", line 373, in open
    protocol = req.get_type()
  File "c:\python25\lib\urllib2.py", line 244, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: http%3A//www.example.com/foo%20goo/bar.html

@ ΤΖΩΤΖΙΟΥ предоставляет функцию, которая использует urlparse.urlparse и urlparse.urlunparse для анализа URL-адреса и только кодирования пути. Это может быть более полезным для вас, хотя, если вы создаете URL-адрес из известного протокола и хоста, но с подозрительным путем, вы, вероятно, могли бы сделать то же самое, чтобы избежать urlparse и просто заключить в кавычки подозрительную часть URL-адреса, объединяя известные безопасные части.

cobra libre · Answer 4 · 07 июня 2009

Поскольку эта страница является лучшим результатом поиска Google по этой теме, я думаю, что стоит упомянуть некоторую работу, которая была проделана над нормализацией URL с помощью Python, которая выходит за рамки символов пробела урленкодирования. Например, работа с портами по умолчанию, регистр символов, отсутствие косой черты и т. Д.

Когда разрабатывался формат синдикации Atom, шла дискуссия о том, как нормализовать URL-адреса в канонический формат; это описано в статье PaceCanonicalIds в вики Atom / Pie. Эта статья содержит несколько хороших тестовых примеров.

Я полагаю, что одним из результатов этого обсуждения стала библиотека urlnorm.py Марка Ноттингема, которую я использовал с хорошими результатами в нескольких проектах. Однако этот скрипт не работает с URL-адресом, указанным в этом вопросе. Поэтому лучшим выбором может быть версия Сэма Руби urlnorm.py , которая обрабатывает этот URL, и все вышеупомянутые тестовые случаи из вики Atom.

tzot · Answer 5 · 23 сентября 2008

import urlparse, urllib
def myquote(url):
    parts= urlparse.urlparse(url)
    return urlparse.urlunparse(parts[:2] + urllib.quote(parts[2]) + parts[3:])

Цитирует только компонент пути.

В противном случае вы можете сделать: urllib.quote(url, safe=":/")

Mark Nottingham · Answer 6 · 16 декабря 2009

Просто к вашему сведению, urlnorm перешел на github: http://gist.github.com/246089

Hélder Lima · Answer 7 · 05 марта 2017

Действительно для Python 3.5:

import urllib.parse

urllib.parse.quote([your_url], "\./_-:")

пример:

import urllib.parse

print(urllib.parse.quote("http://www.example.com/foo goo/bar.html", "\./_-:"))

вывод будет http://www.example.com/foo%20goo/bar.html

Шрифт: https://docs.python.org/3.5/library/urllib.parse.html?highlight=quote#urllib.parse.quote

WKPlus · Answer 8 · 13 июня 2014

Я сталкиваюсь с такой проблемой: нужно указывать только пробел.

fullurl = quote(fullurl, safe="%/:=&?~#+!$,;'@()*[]") действительно помогите, но это слишком сложно.

Итак, я использовал простой способ: url = url.replace(' ', '%20'), он не идеален, но это самый простой способ, и он подходит для этой ситуации.

Как я могу нормализовать URL в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу нормализовать URL в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы