У меня проблемы с работой с Charsets при разборе и отрисовке страницы с использованием библиотеки JSoup. Вот пример страницы, которую она отображает:
http://dl.dropbox.com/u/13093/charset-problem.html
Как видите, где должны быть 'символы,? вместо этого отображается (даже при просмотре исходного кода).
Эта страница создается путем загрузки веб-страницы, анализа с помощью JSoup, а затем повторного рендеринга, после внесения некоторых структурных изменений.
Я загружаю страницу следующим образом:
final Document inputDoc = Jsoup.connect(sourceURL.toString()).get();
Когда я создаю выходной документ, я делаю это следующим образом:
outputDoc.outputSettings().charset(Charset.forName("UTF-8"));
outputDoc.head().appendElement("meta").attr("charset", "UTF-8");
outputDoc.head().appendElement("meta").attr("http-equiv", "Content-Type")
.attr("content", "text/html; charset=UTF-8");
Кто-нибудь может подсказать, что я делаю не так?
edit: обратите внимание, что исходной страницей является http://blog.locut.us/, и, как вы увидите, она отображается правильно