Хорошо, хорошо, когда я получаю это содержимое с помощью Python, я получаю следующее:
'\n<rss version="2.0" encoding="ISO-8859-1">\n [...]
<description>The results of this year\x92s Higher Secondary Certificate
Теперь он говорит , что это ISO-8859-1, но \ x92 не входит в этот набор символов, а вместо этого представляет собой заключительную фигурную одинарную кавычку, используемую как апостроф, в Windows-1252. Таким образом, страница выдает ошибку кодирования, и согласно спецификации XML клиенты должны быть «строгими» и не исправлять ошибки.
Вы можете извлечь его и отфильтровать символы, отличные от ISO-8859-1, или, что лучше, преобразовать кодировку, используя mb-convert-encoding()
, прежде чем передавать результат в свой парсер RSS.
О, и если вы хотите включить результат в страницу UTF-8, возможно, вам пришлось преобразовать все в UTF-8, хотя это английский язык, который может даже не требовать каких-либо других кодировок символов, если все получается быть ASCII в конце концов.