Question

Я действительно запутался с codecs.open function. Когда я делаю:

file = codecs.open("temp", "w", "utf-8")
file.write(codecs.BOM_UTF8)
file.close()

Это дает мне ошибку

UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xef в позиции 0: порядковый номер не в диапазоне (128)

Если я это сделаю:

file = open("temp", "w")
file.write(codecs.BOM_UTF8)
file.close()

Работает нормально.

Вопрос Почему первый метод не работает? А как мне вставить бом?

Если второй метод является правильным способом, какой смысл использовать codecs.open(filename, "w", "utf-8")?

Jon Skeet · Answer 1 · 01 июня 2009

Я считаю, что проблема в том, что codecs.BOM_UTF8 - это строка байтов, а не строка Юникода. Я подозреваю, что обработчик файлов пытается угадать, что вы на самом деле имеете в виду, основываясь на «Я должен писать Unicode как текст в кодировке UTF-8, но вы дали мне строку байтов!»

Попробуйте написать строку Unicode для метки порядка байтов (т.е. Unicode U + FEFF) напрямую, чтобы файл просто кодировал это как UTF-8:

import codecs

file = codecs.open("lol", "w", "utf-8")
file.write(u'\ufeff')
file.close()

(Это, кажется, дает правильный ответ - файл с байтами EF BB BF.)

EDIT: предложение S. Lott об использовании "utf-8-sig" в качестве кодировки лучше, чем явное написание самой спецификации, но я оставлю здесь этот ответ, поскольку он объясняет раньше шел не так.

S.Lott · Answer 2 · 01 июня 2009

Прочитайте следующее: http://docs.python.org/library/codecs.html#module-encodings.utf_8_sig

Сделай это

with codecs.open("test_output", "w", "utf-8-sig") as temp:
    temp.write("hi mom\n")
    temp.write(u"This has ♭")

Полученный файл - UTF-8 с ожидаемой спецификацией.

gimel · Answer 3 · 01 июня 2009

@ S-Lott дает правильную процедуру, но, расширив проблемы Unicode , интерпретатор Python может предоставить больше информации.

Джон Скит прав (необычно) в отношении модуля codecs - он содержит байтовые строки:

>>> import codecs
>>> codecs.BOM
'\xff\xfe'
>>> codecs.BOM_UTF8
'\xef\xbb\xbf'
>>>

Выбрав еще одну нитку, BOM имеет стандартное Юникод имя, и его можно ввести как:

>>> bom= u"\N{ZERO WIDTH NO-BREAK SPACE}"
>>> bom
u'\ufeff'

Он также доступен через unicodedata:

>>> import unicodedata
>>> unicodedata.lookup('ZERO WIDTH NO-BREAK SPACE')
u'\ufeff'
>>>

Ricardo · Answer 4 · 09 февраля 2012

Я использую команду file * nix для преобразования неизвестного файла кодировки в файл utf-8

# -*- encoding: utf-8 -*-

# converting a unknown formatting file in utf-8

import codecs
import commands

file_location = "jumper.sub"
file_encoding = commands.getoutput('file -b --mime-encoding %s' % file_location)

file_stream = codecs.open(file_location, 'r', file_encoding)
file_output = codecs.open(file_location+"b", 'w', 'utf-8')

for l in file_stream:
    file_output.write(l)

file_stream.close()
file_output.close()

Запись в файл UTF-8 на Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запись в файл UTF-8 на Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы