Относительно декодирования символов и декодирования пантомимы - PullRequest
0 голосов
/ 21 декабря 2011

Я разработал программу на Java, которая выбирает тему, отправителя, дату и время получения информации электронной почты из учетной записи электронной почты.Я сделал это, используя html parser и httpclient.У меня две проблемы.

  1. Когда я анализирую строку темы письма, я иногда получаю какой-то странный символ.Например, если тема «Привет, мистер Мюллер», я получаю строку темы как «Привет, мистер Мюллер».Как вы можете видеть, он не дает должного характера.Есть идеи, какая это кодировка?Это UTF-8?Как мне расшифровать его, чтобы получить исходную строку?

  2. Я также получил информацию по электронной почте, такую ​​как тема, отправитель, получатель, время и т. Д. Из учетной записи Yahoo с pop3.Я заметил, что когда идентификатор электронной почты отправителя содержит ü или ue (например, reva.müller@gmx.de), он кодирует его как ('=? Iso-8859-1? Q? = 22Reva_M = FCller = 22? =«).Есть идеи о том, что это за кодировка?Это кодировка MIME?Как мне декодировать его в Java, чтобы получить правильную строку отправителя?

Я был бы очень признателен за любую помощь .....

1 Ответ

0 голосов
/ 22 декабря 2011

Вам нужно прочитать RFC: http://www.ietf.org/rfc/rfc2045.txt. Он расскажет вам, как интерпретировать эти знаки =.

См. «6.7. Кодируемое-переданное-Передача-Кодирование содержимого».

Также ищите заголовок Content-Type, чтобы подсказать вам кодировку.

...