В настоящее время я использую BeautifulSoup для очистки некоторых веб-сайтов, однако у меня есть проблема с некоторыми конкретными символами, кажется, код в UnicodeDammit указывает на то, что это (опять же) некоторые из изобретенных Microsoft.используя новейшую версию BeautifulSoup (3.0.8.1), так как я все еще использую python2.5
Следующий код иллюстрирует мою проблему:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup
'...Baby One More Time (Digital Deluxe Version…'
Как вы можете видеть, проблема заключается в '… '(& Hellip) символ в конце (который ваш браузер, вероятно, экранировал правильно).Очевидно, это не то, что меня интересует.
Было бы неплохо иметь представление символов Unicode или что-то в этом роде.Даже простое игнорирование этого решило бы мою конкретную проблему.
Как я могу сделать это с BeautifulSoup?