У меня есть файл python с этой строкой текста:
Наилучшие 汉字 интересы ребенка-аборигена в процессе по семейному праву.Австралийский журнал семейного права 12 140149.
Я пытаюсь обработать эту строку, но она продолжает выдавать ошибку:
SyntaxError: не-ASCII символ '\xa3 'в файле
Я поместил это в начало файла:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
Такая же ошибка происходит.
Также пробовал следующее, оставляяВышеприведенный заголовок utf 8:
u'The best 汉字 interests of the Aboriginal child in family law proceedings. Australian Journal of Family Law 12 140149.'
Все та же ошибка.
Также пытался выполнить следующее, оставляя заголовок utf 8 выше:
unicode(The best 汉字 interests of the Aboriginal child in family law proceedings. Australian Journal of Family Law 12 140149.)
Все та же ошибка.
Также попробовал следующее, оставив заголовок utf 8 выше:
gettext.ugettext((The best 汉字 interests of the Aboriginal child in family law proceedings. Australian Journal of Family Law 12 140149.)
Все та же ошибка.
Чего мне не хватает?
Вот всекод:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
s = u'The best 汉字 interests of the Aboriginal child in family law
proceedings. Australian Journal of Family Law 12 140149.'
def cleanup(s):
control_chars = ''.join(map(unichr, range(0,9) + range(11,13) + range(14,32) + range(127,160)))
cc_regex = re.compile('[%s]' % re.escape(control_chars))
return cc_regex.sub(' ', s)
print cleanup(s)
Выходная информация:
C:\EBI\Work>cd c:\EBI\Work && cmd /C "set "PYTHONIOENCODING=UTF-8" && set "PYTHONUNBUFFERED=1" && C:/Python27/python.exe
Traceback (most recent call last):
File "c:\EBI\Work\test2.py", line 7, in <module>
s = unicode('The best µ▒ëσ¡ù interests of the Aboriginal child in family law proceedings. Australian Journal of Family Law 12 140☺149.')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 9: ordinal not in range(128)