JSOUP Неподдерживаемое исключение кодировки - PullRequest
1 голос
/ 24 октября 2011

Я использую jsoup, чтобы прочитать эту страницу:

http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312

Используя следующий код:

Document doc = Jsoup.connect("http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312").get();

и получаю эту ошибку:

java.nio.charset.UnsupportedCharsetException: ISO-LATIN-1

Я проверил заголовок ответа HTML:

Status Code: 200
Date: Sun, 23 Oct 2011 20:10:02 GMT
Content-Encoding: gzip
X-Pad: avoid browser bug
Connection: Keep-Alive
Content-Length: 13890
Server: Apache/2.2.3 (Debian)
Vary: Accept-Encoding
Content-Type: text/html; charset=iso-latin-1
Keep-Alive: timeout=5, max=100

Как видно из ответа HTML, charset = iso-latin-1 , вероятно, именно поэтому я получаю ошибку.Во всяком случае, я вижу ответ тела HTML.Есть ли способ избежать этой ошибки и получить документ (со стандартной кодировкой)?

Заранее благодарен за помощь

Данило

Ответы [ 2 ]

1 голос
/ 24 октября 2011

См. ISO_8859_1 ..

ISO Латинский алфавит № 1, a.k.a. ISO-LATIN-1

1 голос
/ 24 октября 2011

Вы всегда можете загрузить документ без JSoup, программно преобразовать кодировку (здесь ссылка на поваренную книгу ) и передать преобразованную строку в JSoup.

...