Сбой feedparser во время выполнения скрипта, но не может воспроизвести в интерактивной консоли Python - PullRequest
1 голос
/ 18 мая 2010

С этим не получается, когда я запускаю Eclipse или когда я запускаю свой скрипт в iPython:

'ascii' codec can't decode byte 0xe2 in position 32: ordinal not in range(128) 

Я не знаю почему, но когда я просто выполняю оператор feedparse.parse (url), используя тот же URL-адрес, ошибка не возникает. Это ставит меня в тупик.

Код так же прост:

      try:
           d = feedparser.parse(url)
      except Exception, e:
           logging.error('Error while retrieving feed.')
           logging.error(e)
           logging.error(formatExceptionInfo(None))
           logging.error(formatExceptionInfo1())

Вот трассировка стека:

d = feedparser.parse(url)


 File "C:\Python26\lib\site-packages\feedparser.py", line 2623, in parse
    feedparser.feed(data)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1441, in feed
    sgmllib.SGMLParser.feed(self, data)
  File "C:\Python26\lib\sgmllib.py", line 104, in feed
    self.goahead(0)
  File "C:\Python26\lib\sgmllib.py", line 143, in goahead
    k = self.parse_endtag(i)
  File "C:\Python26\lib\sgmllib.py", line 320, in parse_endtag
    self.finish_endtag(tag)
  File "C:\Python26\lib\sgmllib.py", line 360, in finish_endtag
    self.unknown_endtag(tag)
  File "C:\Python26\lib\site-packages\feedparser.py", line 476, in unknown_endtag
    method()
  File "C:\Python26\lib\site-packages\feedparser.py", line 1318, in _end_content
    value = self.popContent('content')
  File "C:\Python26\lib\site-packages\feedparser.py", line 700, in popContent
    value = self.pop(tag)
  File "C:\Python26\lib\site-packages\feedparser.py", line 641, in pop
    output = _resolveRelativeURIs(output, self.baseuri, self.encoding)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1594, in _resolveRelativeURIs
    p.feed(htmlSource)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1441, in feed
    sgmllib.SGMLParser.feed(self, data)
  File "C:\Python26\lib\sgmllib.py", line 104, in feed
    self.goahead(0)
  File "C:\Python26\lib\sgmllib.py", line 138, in goahead
    k = self.parse_starttag(i)
  File "C:\Python26\lib\sgmllib.py", line 296, in parse_starttag
    self.finish_starttag(tag, attrs)
  File "C:\Python26\lib\sgmllib.py", line 338, in finish_starttag
    self.unknown_starttag(tag, attrs)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1588, in unknown_starttag
    attrs = [(key, ((tag, key) in self.relative_uris) and self.resolveURI(value) or value) for key, value in attrs]
  File "C:\Python26\lib\site-packages\feedparser.py", line 1584, in resolveURI
    return _urljoin(self.baseuri, uri)
  File "C:\Python26\lib\site-packages\feedparser.py", line 286, in _urljoin
    return urlparse.urljoin(base, uri)
  File "C:\Python26\lib\urlparse.py", line 215, in urljoin
    params, query, fragment))
  File "C:\Python26\lib\urlparse.py", line 184, in urlunparse
    return urlunsplit((scheme, netloc, url, query, fragment))
  File "C:\Python26\lib\urlparse.py", line 192, in urlunsplit
    url = scheme + ':' + url
  File "C:\Python26\lib\encodings\cp1252.py", line 15, in decode
    return codecs.charmap_decode(input,errors,decoding_table)

ЧАСТИЧНО РЕШЕНО:

Воспроизводится, когда URL-адрес, который передается в feedparser.parse (), имеет Unicode. Он не будет воспроизводиться, когда это URL-адрес ascii. И для записи, вам нужен канал, который имеет несколько символов юникода. Я не уверен, почему это так.

Ответы [ 2 ]

1 голос
/ 20 мая 2010

Со ссылкой на комментарий ОП: Попробуйте любой литерал url, например, u'myfeed.blah / xml '. >>> from pprint import pprint as pp >>> import feedparser >>> d = feedparser.parse(u'myfeed.blah/xml') >>> pp(d) {'bozo': 1, 'bozo_exception': SAXParseException('not well-formed (invalid token)',), 'encoding': 'utf-8', 'entries': [], 'feed': {}, 'namespaces': {}, 'version': ''} >>> d = feedparser.parse(u'http://myfeed.blah/xml') >>> pp(d) {'bozo': 1, 'bozo_exception': URLError(gaierror(11001, 'getaddrinfo failed'),), 'encoding': 'utf-8', 'entries': [], 'feed': {}, 'version': None} >>> d = feedparser.parse("http://feedparser.org/docs/examples/atom10.xml") >>> d['bozo'] 0 >>> d['feed']['title'] u'Sample Feed' >>> d = feedparser.parse(u"http://feedparser.org/docs/examples/atom10.xml") >>> d['bozo'] 0 >>> d['feed']['title'] u'Sample Feed' >>> Пожалуйста, перестань биться; укажите URL, который на самом деле вызывает проблему.

1 голос
/ 18 мая 2010

Похоже, что URL-адрес, который создает проблему, содержит текст с некоторой кодировкой (например, latin-1, где 0xe2 будет "строчными буквами с кружком сверху", то есть â) без правильного типа содержимого заголовок (он должен иметь параметр charset = в Content-Type:, но не имеет).

В этом случае feedparser не может угадать кодировку, пытается использовать значение по умолчанию (ascii) и завершается ошибкой.

эта часть документации feedparser объясняет проблемы более подробно.

К сожалению, для решения этой общей проблемы не существует "волшебных пуль" (из-за бизов, нарушающих правила XML). Вы можете попытаться перехватить это исключение, и в обработчике прочитать содержимое URL-адреса отдельно (используйте urllib2) и попытаться декодировать его с различными возможными кодировками - тогда, когда вы, наконец, получите пригодный для использования объект Unicode таким образом, введите От 1016 * до feedparser.parse (первый аргумент может быть URL-адресом, потоком файла, или строкой Unicode с данными).

...