Официальная кодировка, используемая Twitter Streaming API?Это UTF-8? - PullRequest
9 голосов
/ 26 ноября 2011

Какая официальная кодировка для потокового API Twitter? Мое лучшее предположение - UTF-8, основанный на том, что я видел, но я хотел бы избежать предположений.

Единственная часть сайта Twitter, которую я видел, где они даже намекают на то, что они используют в качестве официальной кодировки, находится здесь:

Twitter не хочет наказывать пользователя за то, что мы используем UTF-8 или за то, что рассматриваемый клиент API использовал более длинное представление

https://dev.twitter.com/docs/counting-characters

У кого-нибудь есть более "официальный" ответ? Я пишу токенайзер конечного автомата для потокового API, который делает определенные предположения. Последнее, что я хочу - это встретить что-то вроде UTF-16.

Спасибо! : D

Ответы [ 2 ]

4 голосов
/ 26 ноября 2011

Одним из показателей является то, что формат JSON , который Twitter использует практически для всего, диктует (или, по крайней мере, по умолчанию) UTF-8.Они должны также установить соответствующий заголовок HTTP, обозначающий кодировку (но я не подтвердил это).Если вместо этого вы используете XML, открывающий тег XML явно обозначает кодировку UTF-8.

0 голосов
/ 26 ноября 2011

Если они говорят, что используют UTF-8, это довольно хорошая ставка.UTF-8 очень распространен, а UTF-16 в дикой природе довольно редкий из того, что я видел.

Есть также несколько умных библиотек, которые вы могли бы использовать, если бы вы были склонны доказать это сами, проверяя, поддерживают ли они различные символы.Лучшие из них используются Firefox для определения кодировки веб-страниц по мере их загрузки: http://www -archive.mozilla.org / projects / intl / UniversalCharsetDetection.html

...