Сохранение
Я подумал, что безопаснее сохранять и загружать данные в двоичном виде, несмотря на то, что это текст.Таким образом, я избегаю проблем с кодированием - поэтому, за исключением парсера, я работаю только с Array [Byte].
org.apache.commons.io.FileUtils
.writeByteArrayToFile(new File(filename),content)
Извлечение и анализ
G_H указывает наБиблиотека JSoup имеет возможность самостоятельно определять кодировку - все, что нужно сделать, это НЕ для передачи информации о кодировке.
val data = org.apache.commons.io.FileUtils
.readFileToByteArray(new File(filename))
val doc = org.jsoup.Jsoup.parse(new java.io
.ByteArrayInputStream(data), null,"");
Извлечение
var content : Array[Byte] = null
val client = new org.apache.http.impl.client.DefaultHttpClient();
val httpget = new org.apache.http.client.methods.HttpGet(url);
try {
val response = client.execute(httpget);
val entity = response.getEntity()
content = org.apache.http.util.EntityUtils.toByteArray(entity)
}
finally {
client.getConnectionManager().shutdown();
}
Большое спасибо G_H , JSoup стал поворотным моментом.