Я использую регулярное выражение для замены кавычек внутри входной строки. Мои данные содержат два «типа» цитат -
" and “
Есть очень тонкая разница между ними. В настоящее время я явно упоминаю оба этих типа в своем регулярном выражении
\"*\“*
Боюсь, однако, что в будущих данных я могу получить другой «тип» цитаты, по которому мое регулярное выражение может потерпеть неудачу. Сколько существует разных типов цитат? Есть ли способ нормализовать их только для одного типа, чтобы мое регулярное выражение не разрывалось для невидимых данных?
Редактировать -
Мои входные данные состоят из файлов HTML, и я экранирую сущности HTML и URL-адреса в ASCII
escaped_line = HTMLParser.HTMLParser().unescape(urllib.unquote(line.decode('ascii','ignore')))
где строка указывает каждую строку в файле HTML. Мне нужно «игнорировать» ASCII, поскольку все файлы в моей базе данных не имеют одинаковую кодировку, и я не знаю кодировку до чтения файла.
Редактировать2
Я не могу сделать это, используя функцию замены. Я попытался заменить ('"', ''), но он не заменяет другой тип кавычки" "". Если я добавлю его в другую функцию замены, он выдаст мне ошибку NON-ASCII.
Состояние
Внешние библиотеки запрещены, можно использовать только собственные библиотеки Python.