Я пишу небольшой сканер HTML в Java.Я хочу иметь один обработчик файлов, который может открывать все HTML-файлы один за другим и обрабатывать их.Но нет способа узнать, что кодируется в HTML-файле, прежде чем открыть этот конкретный файл.Итак, я хочу знать, могу ли я иметь что-то вроде этого:
new BufferedReader(
new InputStreamReader(
new FileInputStream(file), UTF16));
и обработчик сможет прочитать все возможные кодировки (точным образом), которые могут иметь файлы (моя идея UTF16
обратно совместим со всеми другими кодировками).Мне придется иметь дело со следующими кодировками.
charset=iso-8859-1
charset=utf-8
charset=iso-8859-1
charset=iso-8859-15'
charset="UTF-8"
charset=windows-1252
charset=utf-16
Спасибо.Любое предложение будет высоко оценено.