Информация:
У меня есть программа, которая генерирует карты сайта XML для Инструментов Google для веб-мастеров (среди прочего).
GWT дает мне ошибки для некоторых карт сайта, потому что URL содержат последовательности символов, такие как ã¾, ã ‹, ã € и т. Д. **
GWTs говорит:
Мы требуем, чтобы ваш файл Sitemap был в кодировке UTF-8 (обычно вы можете сделать это при сохранении файла). Как и во всех XML-файлах, любые значения данных (включая URL-адреса) должны использовать escape-коды объектов для символов: & , ', ", < , > .
Специальные символы выделяются в файлах XML (с сущностями HTML).
Фрагмент XML-файла:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://domain/folder/listing-ã.shtml</loc>
...
Зашифрованы ли мои URL в кодировке UTF-8?
Если нет, Как мне это сделать в Java ?
Следующая строка в моей программе, где я добавляю URL в карту сайта:
siteMap.addUrl(StringEscapeUtils.escapeXml(countryName+"/"+twoCharFile.getRelativeFileName().toLowerCase()));
** = Я не уверен, какие из них вызывают ошибку, вероятно, первые два примера.
Я прошу прощения за все редактирование.