Question

Я создаю код, который получает URL-адреса изображений с любых веб-страниц, код написан на python и использует BeutifulSoup и httplib2. Когда я запускаю код, я получаю следующую ошибку:

Look me http://movies.nytimes.com          (this line is printed by the code)
Traceback (most recent call last):
File "main.py", line 103, in <module>
visit(initialList,profundidad)
File "main.py", line 98, in visit
visit(dodo[indice], bottom -1)
File "main.py", line 94, in visit
getImages(w)
File "main.py", line 34, in getImages
iSoupList = BeautifulSoup(response, parseOnlyThese=SoupStrainer('img'))
File "/usr/local/lib/python2.6/dist-packages/BeautifulSoup.py", line 1499, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/usr/local/lib/python2.6/dist-packages/BeautifulSoup.py", line 1230, in __init__
self._feed(isHTML=isHTML)
File "/usr/local/lib/python2.6/dist-packages/BeautifulSoup.py", line 1263, in _feed
self.builder.feed(markup)
File "/usr/lib/python2.6/HTMLParser.py", line 108, in feed
self.goahead(0)
File "/usr/lib/python2.6/HTMLParser.py", line 148, in goahead
k = self.parse_starttag(i)
File "/usr/lib/python2.6/HTMLParser.py", line 226, in parse_starttag
endpos = self.check_for_whole_start_tag(i)
File "/usr/lib/python2.6/HTMLParser.py", line 301, in check_for_whole_start_tag
self.error("malformed start tag")
File "/usr/lib/python2.6/HTMLParser.py", line 115, in error
raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: malformed start tag, at line 942, column 118

Кто-то может объяснить мне, как исправить или сделать исключение для ошибки

rob · Answer 1 · 09 июля 2009

Вы используете последнюю версию BeautifulSoup?
Кажется, это известная проблема версии 3.1.x, потому что она начала использовать новый синтаксический анализатор (HTMLParser, а не SGMLParser), который намного хуже обрабатывает искаженный HTML. Вы можете найти больше информации об этом на сайте BeautifulSoup .
В качестве быстрого решения вы можете просто использовать более старую версию ( 3.0.7a ).

Dan Lorenc · Answer 2 · 08 июля 2009

Чтобы конкретно отследить эту ошибку, измените код так, чтобы он выглядел следующим образом:

try:
    iSoupList = BeautifulSoup(response, parseOnlyThese=SoupStrainer('img'))

except HTMLParseError:
    #Do something intelligent here

Вот еще несколько примеров чтения Python, кроме блоков: http://docs.python.org/tutorial/errors.html

hoju · Answer 3 · 04 декабря 2009

Я получил эту ошибку, когда в моем HTML-документе была строка = & . Когда я заменил эту строку (в моем случае = и ), я больше не получил эту ошибку синтаксического анализа.

как исправить или сделать исключение для этой ошибки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как исправить или сделать исключение для этой ошибки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы