Question

У меня есть куча HTML-файлов, которые я скачал, используя пакет HTTPLIB2 в Python. '' отображаются как 'В'.

<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004&nbsp;</font> is the desired format.

Как заменить 'Â ' на ' ' в Python? Большое спасибо!

e-satis · Answer 1 · 22 декабря 2011

У вас проблема с кодировкой. Вместо того, чтобы пытаться удалить эти символы, ищите кодировку страницы, затем при чтении файла используйте codecs модуль вместо open(), используя правильную кодировку символов.

ThinkCode · Answer 2 · 27 мая 2010

filtered_content = filter(lambda x: x in string.printable, content)

Это решило мою проблему. Спасибо!

JAB · Answer 3 · 27 мая 2010

s.replace('Â ', '&nbsp;');

Однако, хотя я не использовал HTTPLIB2, я почти уверен, что что-то не так, если источник HTML-файлов изменяется при их загрузке. Может быть, происходит проблема декодирования. Какую версию Python вы используете? Если это Python 3, содержимое будет представлять собой последовательности байтов, а не строки, поэтому вам нужно будет указать правильную кодовую страницу для декодирования байтов в.

http://code.google.com/p/httplib2/wiki/ExamplesPython3

РЕДАКТИРОВАТЬ: Если вы не ограничены использованием только httplib2, возможно, вы можете попробовать использовать модули urllib, urllib2 или httplib, которые являются частью стандартной библиотеки Python 2.6?

Помогите заменить не-ASCII символ в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Помогите заменить не-ASCII символ в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы