Модуль Python Markdown, подавляющий конвертацию в юникод, utf-8 - PullRequest
1 голос
/ 29 мая 2011

Я использую модуль уценки от web2py для обработки размеченного текста. Проблема в том, что люди отправляют материалы со смарт-цитатами, специальными символами и т. Д., И мне нужно заменить их на их эквиваленты.

У меня есть такой текст: '\ n \ r \ nЛик полковника немного побледнел. \ xe2 \ x80 \ x9cНо, тогда \ xe2 \ x80 "извините за смелость, сэр \ xe2 \ x80" мы сейчас едем в Увар "

Как я могу гарантировать, что вызов unicode (txt, 'utf-8'), как это происходит с текстом внутри внутренней разметки, не вызовет ошибку? Причудливые специальные кавычки, которые вставляют программы обработки текста, являются обычной причиной, но, похоже, есть много символов, которые являются проблемой.

1 Ответ

1 голос
/ 29 мая 2011

\xe2\x80\x9c - это U + 201C ЛЕВАЯ МАРКА ДВОЙНОЙ ЦИТАТЫ («умная цитата») при декодировании как UTF-8. Два вхождения \xe2\x80" не являются действительными последовательностями UTF-8, и присутствие там " («тупая» цитата) является подозрительным. Похоже, у вас проблема с календарем, проблема с кодировкой или и то, и другое. Нам нужно разобраться с этим, прежде чем мы перейдем к задаче замены, например. умные цитаты тупыми цитатами.

Как именно "люди подают вещи"? Какие преобразования он прошел до того, как уценка unicode(txt, 'utf-8')?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...