Я столкнулся с проблемой при чтении некоторых тегов id3 с исландскими буквами.
Быстрый пример из оболочки.
>>> audio = mutagen.easyid3.EasyID3('./Björk/Albums/1990 - Gling-Gló [mp3-231]/01 - Gling-Gló.mp3')
>>> audio['title']
5: [u'Gling-Gl\xf3']
Прежде всего, я не совсем уверен, какпроверьте, в каких символах кодируются теги. Из того, что я собрал, это способ сделать это с помощью мутагена:
>>> audio = mutagen.id3.ID3('./Björk/Albums/1990 - Gling-Gló [mp3-231]/01 - Gling-Gló.mp3')
>>> for key, value in audio.items():
... print value.encoding
Это выводит '0' для каждого элемента.
И я где-то видел, что для тегов id3 число 0 означало, что строка закодирована в iso-8859-1, но я не знаю, куда идти дальше.Думаю, это неправильно?
>>> audio.get('artist')[0].decode('iso-8859-1')
14: u'Bj\xc3\xb6rk'
Как вы, вероятно, можете сказать, я серьезно сбит с толку, когда речь заходит о проблемах с кодировкой символов.
Все, что я хочу, - это захватывать теги как правильные utf-8строки, чтобы я мог поместить их в свою базу данных.Хотя это всего лишь один пример, я думаю, что я, вероятно, столкнусь с некоторыми другими файлами с совершенно разными кодировками, поэтому я ищу хорошее универсальное решение.Только исправление этого действительно помогло бы мне встать на путь.
Заранее спасибо.