Сначала я хотел бы поблагодарить вас за помощь заранее.
В настоящее время я пишу веб-сканер, который анализирует содержимое HTML, удаляет теги HTML, а затем проверяет орфографию текста, полученного из анализа.
Удаление HTML-тегов и проверка правописания не вызвало никаких проблем при использовании JSoup и Google Spell Check API.
Я могу извлечь содержимое из URL-адреса и передать эту информацию в байт [], а затем, в конечном счете, в строку, чтобы ее можно было удалить и проверить орфографию. У меня проблема с кодировкой символов.
Например, при разборе http://www.testwareinc.com/...
Оригинальный текст: Мы расширили наши услуги тестирования мобильных веб-приложений и мобильных приложений.
... страница использует ISO-8859-1 в соответствии с метатегом ...
ISO-8859-1 Parse: Мы расширили наши услуги по тестированию мобильных веб-приложений и мобильных приложений.
... затем пытается использовать UTF-8 ...
UTF-8 Parse: Мы расширили наши услуги тестирования мобильных веб-приложений и мобильных приложений.
Вопрос
Возможно ли, что HTML веб-страницы может включать в себя сочетание кодировок? И как это можно обнаружить?