Question

Я вытаскиваю данные из документа Google, обрабатываю их и записываю в файл (который, в конце концов, вставлю на страницу Wordpress).

В нем есть не-ASCII-символы.Как я могу безопасно преобразовать их в символы, которые можно использовать в исходном коде HTML?

В настоящее время я конвертирую все в Unicode по пути, объединяю все это в строку Python, затем выполняю:

import codecs
f = codecs.open('out.txt', mode="w", encoding="iso-8859-1")
f.write(all_html.encode("iso-8859-1", "replace"))

В последней строке есть ошибка кодирования:

UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xa0 в позиции 12286: порядковый номер не находится в диапазоне (128)

Частичное решение:

Этот Python работает без ошибок:

row = [unicode(x.strip()) if x is not None else u'' for x in row]
all_html = row[0] + "<br/>" + row[1]
f = open('out.txt', 'w')
f.write(all_html.encode("utf-8"))

Но тогда, если я открою текстовый файл, я вижу много символов, таких как:

Qur‚Äôan

Может быть, янужно написать что-то кроме текстового файла?

quasistoic · Answer 1 · 18 мая 2011

Работайте исключительно с объектами Unicode в максимально возможной степени, декодируя объекты в объекты Unicode при первом получении и кодируя их по мере необходимости.

Если ваша строка на самом деле является объектом в кодировке Unicode, вам необходимо преобразовать его в объект в кодировке Unicode перед записью в файл:

foo = u'Δ, Й, ק, ‎ م, ๗, あ, 叶, 葉, and 말.'
f = open('test', 'w')
f.write(foo.encode('utf8'))
f.close()

Когда вы снова прочитаете этот файл, вы получите строку в кодировке Unicode, которую можно декодировать в объект Unicode:

f = file('test', 'r')
print f.read().decode('utf8')

jfs · Answer 2 · 29 января 2016

В Python 2.6+ вы можете использовать io.open(), который по умолчанию ( встроенный open()) в Python 3:

import io

with io.open(filename, 'w', encoding=character_encoding) as file:
    file.write(unicode_text)

Это может быть более удобно, если вам нужно писать текст постепенно (вам не нужно вызывать unicode_text.encode(character_encoding) несколько раз). В отличие от модуля codecs, модуль io имеет надлежащую универсальную поддержку перевода строки.

david m lee · Answer 3 · 15 октября 2017

Обработка Unicode-строк уже стандартизирована в Python 3.

символы уже сохранены в Unicode (32-битном) в памяти
Вам нужно только открыть файл в utf-8
(32-битное преобразование Unicode в utf-8 автоматически выполняется из памяти в файл.)
```
out1 = "(嘉南大圳 ㄐㄧㄚ　ㄋㄢˊ　ㄉㄚˋ　ㄗㄨㄣˋ )"
fobj = open("t1.txt", "w", encoding="utf-8")
fobj.write(out1)
fobj.close()
```

Thomas Wouters · Answer 4 · 18 мая 2011

Файл, открытый codecs.open, - это файл, который получает данные unicode, кодирует их в iso-8859-1 и записывает в файл.Однако то, что вы пытаетесь написать, не unicode;вы берете unicode и кодируете его в iso-8859-1 сами .Это то, что делает метод unicode.encode, и результат кодирования строки Unicode - это строка байтов (тип str.)

Вы должны либо использовать обычный open() и кодировать Unicode самостоятельно, либообычно это лучшая идея) используйте codecs.open() и , а не для кодирования данных самостоятельно.

Aaron Hall · Answer 5 · 13 мая 2016

Предисловие: будет ли работать ваш просмотрщик?

Убедитесь, что ваш просмотрщик / редактор / терминал (однако вы взаимодействуете с файлом в кодировке utf-8) может прочитать файл.Это часто проблема в Windows , например, в Блокноте.

Запись текста Unicode в текстовый файл?

В Python 2 используйтеopen из модуля io (это то же самое, что встроенный open в Python 3):

import io

В общем, рекомендуется использовать UTF-8 для записи в файлы (мыдаже не нужно беспокоиться о порядке следования байтов с utf-8).

encoding = 'utf-8'

utf-8 - это самая современная и универсально используемая кодировка - она работает во всех веб-браузерах, в большинстве текстовых редакторов (посмотрите ваши настройки, если у вас есть проблемы) и большинство терминалов / оболочек.

В Windows вы можете попробовать utf-16le, если вы ограничены просмотром вывода в Блокноте (или другом ограниченном средстве просмотра).

encoding = 'utf-16le' # sorry, Windows users... :(

И просто откройте его с помощью диспетчера контекста и напишите свои символы Юникода:

with io.open(filename, 'w', encoding=encoding) as f:
    f.write(unicode_object)

Пример использования множества символов Юникода

Вот пример, который пытается сопоставить все возможные символышириной до трех бит (4 - максимум, но это будет немногодалеко) от цифрового представления (в целых числах) до закодированного печатаемого вывода вместе с его именем, если это возможно (поместите это в файл с именем uni.py):

from __future__ import print_function
import io
from unicodedata import name, category
from curses.ascii import controlnames
from collections import Counter

try: # use these if Python 2
    unicode_chr, range = unichr, xrange
except NameError: # Python 3
    unicode_chr = chr

exclude_categories = set(('Co', 'Cn'))
counts = Counter()
control_names = dict(enumerate(controlnames))
with io.open('unidata', 'w', encoding='utf-8') as f:
    for x in range((2**8)**3): 
        try:
            char = unicode_chr(x)
        except ValueError:
            continue # can't map to unicode, try next x
        cat = category(char)
        counts.update((cat,))
        if cat in exclude_categories:
            continue # get rid of noise & greatly shorten result file
        try:
            uname = name(char)
        except ValueError: # probably control character, don't use actual
            uname = control_names.get(x, '')
            f.write(u'{0:>6x} {1}    {2}\n'.format(x, cat, uname))
        else:
            f.write(u'{0:>6x} {1}  {2}  {3}\n'.format(x, cat, char, uname))
# may as well describe the types we logged.
for cat, count in counts.items():
    print('{0} chars of category, {1}'.format(count, cat))

Это должно выполняться в следующем порядкеоколо минуты, и вы можете просмотреть файл данных, и если ваша программа просмотра файлов может отображать Unicode, вы увидите его.Информацию о категориях можно найти здесь .Основываясь на подсчете, мы, вероятно, можем улучшить наши результаты, исключив категории Cn и Co, с которыми не связаны никакие символы.

$ python uni.py

Будет отображено шестнадцатеричное отображение, category , символ (если не может получить имя, поэтому, вероятно, управляющий символ) и имя символа.Например,

Я рекомендую less в Unix или Cygwin (не печатать / не катать весь файл на выходе):

$ less unidata

Например, будет отображаться аналогично следующим строкам, которые явзяты из него с использованием Python 2 (Unicode 5.2):

     0 Cc NUL
    20 Zs     SPACE
    21 Po  !  EXCLAMATION MARK
    b6 So  ¶  PILCROW SIGN
    d0 Lu  Ð  LATIN CAPITAL LETTER ETH
   e59 Nd  ๙  THAI DIGIT NINE
  2887 So  ⢇  BRAILLE PATTERN DOTS-1238
  bc13 Lo  밓  HANGUL SYLLABLE MIH
  ffeb Sm  ￫  HALFWIDTH RIGHTWARDS ARROW

Мой Python 3.5 от Anaconda имеет Unicode 8.0, я бы предположил, что большинство 3-х будет.

Eric Leschinski · Answer 6 · 27 декабря 2013

Как напечатать символы Unicode в файл:

Сохранить это в файл: foo.py:

#!/usr/bin/python -tt
# -*- coding: utf-8 -*-
import codecs
import sys 
UTF8Writer = codecs.getwriter('utf8')
sys.stdout = UTF8Writer(sys.stdout)
print(u'e with obfuscation: é')

Запустить его и передать вывод в файл:

python foo.py > tmp.txt

Откройте tmp.txt и загляните внутрь, вы увидите следующее:

el@apollo:~$ cat tmp.txt 
e with obfuscation: é

Таким образом, вы сохранили код unicode e с пометкой обфускации в файле.

Thomas K · Answer 7 · 18 мая 2011

Эта ошибка возникает, когда вы пытаетесь закодировать не-юникодную строку: она пытается декодировать ее, предполагая, что она в простом ASCII.Есть две возможности:

Вы кодируете его в строку байтов, но поскольку вы использовали codecs.open, метод write ожидает объект Unicode.Таким образом, вы кодируете его, и он пытается снова его декодировать.Попробуйте: f.write(all_html) вместо.
all_html на самом деле не является объектом Юникода.Когда вы делаете .encode(...), он сначала пытается расшифровать его.

ashish14 · Answer 8 · 26 апреля 2019

В случае записи в python3

>>> a = u'bats\u00E0'
>>> print a
batsà
>>> f = open("/tmp/test", "w")
>>> f.write(a)
>>> f.close()
>>> data = open("/tmp/test").read()
>>> data
'batsà'

В случае записи в python2:

>>> a = u'bats\u00E0'
>>> f = open("/tmp/test", "w")
>>> f.write(a)

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe0' in position 4: ordinal not in range(128)

Чтобы избежать этой ошибки, вам придется кодировать ее в байты с помощью кодеков "utf-8 "вот так:

>>> f.write(a.encode("utf-8"))
>>> f.close()

и декодировать данные при чтении с использованием кодеков" utf-8 ":

>>> data = open("/tmp/test").read()
>>> data.decode("utf-8")
u'bats\xe0'

А также при попытке выполнить печать по этой строкеон будет автоматически декодироваться с использованием кодеков "utf-8", подобных этому

>>> print a
batsà

Записывает текст Unicode в текстовый файл?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Предисловие: будет ли работать ваш просмотрщик?

Запись текста Unicode в текстовый файл?

Пример использования множества символов Юникода

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Записывает текст Unicode в текстовый файл?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Предисловие: будет ли работать ваш просмотрщик?

Запись текста Unicode в текстовый файл?

Пример использования множества символов Юникода

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы