Эти страницы имеют правильную кодировку UTF-8. Вот как их видит мой браузер, и когда я просматриваю их и говорю редактору декодировать их как UTF-8, они выглядят хорошо. Единственная проблема, которую я вижу, заключается в том, что некоторые символы авторского права, кажется, были повреждены до (или как), они были добавлены в контент. О-макрон и другие буквы, не входящие в ASCII, проходят нормально.
Я не знаю, знаете ли вы об этом, но правильный способ уведомить клиентов о кодировке страницы - через заголовок. Страницы могут включать эту информацию в теги <meta>
, но это не требуется и не ожидается; браузеры обычно игнорируют такие теги, если присутствует заголовок.
Поскольку ваши страницы имеют формат XHTML, они также могут встраивать информацию о кодировке в инструкцию обработки XML, но, опять же, они не обязаны это делать. Но это также означает, что вы можете заставить Nokogiri обращаться с ними как с XML, а не с HTML, и в этом случае я ожидаю, что по умолчанию будет использоваться UTF-8. Но я не знаком с Нокогири, поэтому не могу быть уверен. И в любом случае, заголовок все еще является последним органом.