Убегая & hellip; с BeautifulSoup - PullRequest
       5

Убегая & hellip; с BeautifulSoup

1 голос
/ 01 июля 2010

В настоящее время я использую BeautifulSoup для очистки некоторых веб-сайтов, однако у меня есть проблема с некоторыми конкретными символами, кажется, код в UnicodeDammit указывает на то, что это (опять же) некоторые из изобретенных Microsoft.используя новейшую версию BeautifulSoup (3.0.8.1), так как я все еще использую python2.5

Следующий код иллюстрирует мою проблему:

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup

'...Baby One More Time (Digital Deluxe Version…'

Как вы можете видеть, проблема заключается в '… '(& Hellip) символ в конце (который ваш браузер, вероятно, экранировал правильно).Очевидно, это не то, что меня интересует.

Было бы неплохо иметь представление символов Unicode или что-то в этом роде.Даже простое игнорирование этого решило бы мою конкретную проблему.

Как я могу сделать это с BeautifulSoup?

Ответы [ 2 ]

1 голос
/ 11 июля 2010

Сам нашел решение:

soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…', convertEntities="html")
1 голос
/ 05 июля 2010

MS, возможно, изобрел его, но … является частью HTML 4: http://www.w3.org/TR/REC-html40/sgml/entities.html

Возможно, ваш Lib/htmlentitydefs.py отсутствует или устарел, так как именно это BeautifulSoup использует для преобразования сущностей.

Если вы посмотрите на дерево исходников Python 2.5 , вы ясно увидите его в строке 126.

...