Question

Мне нужно получить данные с URL-адреса, отличного от символов ascii, но urllib2.urlopen отказывается открывать ресурс и выдает:

UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128)

Я знаю, что URL не соответствует стандартам, но у меня нет шансов изменить его.

Как получить доступ к ресурсу, указанному в URL-адресе, содержащем символы не ascii, с использованием Python?

edit: Другими словами, может ли / как urlopen открыть URL-адрес, например:

http://example.org/Ñöñ-ÅŞÇİİ/

bobince · Answer 1 · 08 декабря 2010

Строго говоря, URI не могут содержать символы не-ASCII;у вас есть IRI .

Для преобразования IRI в простой URI ASCII:

не-ASCII символов в части имени хостаадрес должен быть закодирован с использованием алгоритма IDNA на основе Punycode ;
не-ASCII символов в пути и большинства других частей адресадолжны быть закодированы с использованием UTF-8 и% -кодирования согласно ответу Игнасио.

Итак:

import re, urlparse

def urlEncodeNonAscii(b):
    return re.sub('[\x80-\xFF]', lambda c: '%%%02x' % ord(c.group(0)), b)

def iriToUri(iri):
    parts= urlparse.urlparse(iri)
    return urlparse.urlunparse(
        part.encode('idna') if parti==1 else urlEncodeNonAscii(part.encode('utf-8'))
        for parti, part in enumerate(parts)
    )

>>> iriToUri(u'http://www.a\u0131b.com/a\u0131b')
'http://www.xn--ab-hpa.com/a%c4%b1b'

(Технически это все еще не очень хорошов общем случае достаточно, потому что urlparse не разделяет префикс user:pass@ или суффикс :port на имени хоста. Только часть имени хоста должна быть закодирована IDNA. Проще кодировать, используя обычные urllib.quote и .encode('idna')в то время, когда вы создаете URL-адрес, чем нужно разделять IRI.)

darkfeline · Answer 2 · 16 августа 2013

В Python 3 есть библиотеки для обработки этой ситуации. использование urllib.parse.urlsplit чтобы разделить URL на его компоненты, и urllib.parse.quote для правильного цитирования / экранирования символов Юникода и urllib.parse.urlunsplit, чтобы присоединиться к нему вместе.

>>> import urllib.parse
>>> url = 'http://example.com/unicodè'
>>> url = urllib.parse.urlsplit(url)
>>> url = list(url)
>>> url[2] = urllib.parse.quote(url[2])
>>> url = urllib.parse.urlunsplit(url)
>>> print(url)
http://example.com/unicod%C3%A8

Perry · Answer 3 · 24 марта 2015

В python3 используйте функцию urllib.parse.quote для строки, отличной от ascii:

>>> from urllib.request import urlopen                                                                                                                                                            
>>> from urllib.parse import quote                                                                                                                                                                
>>> chinese_wikipedia = 'http://zh.wikipedia.org/wiki/Wikipedia:' + quote('首页')
>>> urlopen(chinese_wikipedia)

eviltnan · Answer 4 · 28 февраля 2012

Используйте iri2uri метод httplib2.Он делает то же самое, что и bobin (он / она автор этого?)

Mikhail Korobov · Answer 5 · 17 ноября 2016

Это сложнее, чем предполагает принятый ответ @ bobince:

netloc должен быть закодирован с использованием IDNA;
путь к URL-адресу, отличному от ascii, должен быть закодирован в UTF-8 и затем экранирован в процентах;
параметры запроса не ascii должны быть закодированы так, чтобы кодировка URL-адреса страницы была извлечена (или для использования сервером кодирования), а затем экранирована в процентах.

Так работают все браузеры; он указан в https://url.spec.whatwg.org/ - см. пример . Реализацию Python можно найти в w3lib (это библиотека, которую использует Scrapy); см. w3lib.url.safe_url_string :

from w3lib.url import safe_url_string
url = safe_url_string(u'http://example.org/Ñöñ-ÅŞÇİİ/', encoding="<page encoding>")

Простой способ проверить, является ли реализация, экранирующая URL, неправильной / неполной, - проверить, содержит ли она аргумент «кодировка страницы» или нет.

Ukr · Answer 6 · 18 февраля 2017

На основании ответа @darkfeline:

from urllib.parse import urlsplit, urlunsplit, quote

def iri2uri(iri):
    """
    Convert an IRI to a URI (Python 3).
    """
    uri = ''
    if isinstance(iri, str):
        (scheme, netloc, path, query, fragment) = urlsplit(iri)
        scheme = quote(scheme)
        netloc = netloc.encode('idna').decode('utf-8')
        path = quote(path)
        query = quote(query)
        fragment = quote(fragment)
        uri = urlunsplit((scheme, netloc, path, query, fragment))

    return uri

h7r · Answer 7 · 22 мая 2016

Для тех, кто не зависит строго от urllib, одна практическая альтернатива - запросы , которые обрабатывают IRI "из коробки".

Например, с http://bücher.ch:

>>> import requests
>>> r = requests.get(u'http://b\u00DCcher.ch')
>>> r.status_code
200

Giovanni Gianni · Answer 8 · 31 октября 2018

работает! наконец

Я не мог избежать этого странного персонажа, но в конце я прохожу через него.

import urllib.request
import os


url = "http://www.fourtourismblog.it/le-nuove-tendenze-del-marketing-tenere-docchio/"
with urllib.request.urlopen(url) as file:
    html = file.read()
with open("marketingturismo.html", "w", encoding='utf-8') as file:
    file.write(str(html.decode('utf-8')))
os.system("marketingturismo.html")

Как получить не-ascii URL с помощью Python urlopen?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

работает! наконец

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить не-ascii URL с помощью Python urlopen?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

работает! наконец

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы