Получение Sitemap - это HTML из Google Webmaster Tool - PullRequest
2 голосов
/ 03 августа 2009

[ Примечание для мудрых : перейти к последнему РЕДАКТИРОВАТЬ ]

У меня есть очень простой TXT Sitemap (с именем sitemap.txt), который выглядит следующим образом:

http://myDomain.com
http://myDomain.com/about.html
http://myDomain.com/faq.html
http://myDomain.com/careers.html

Когда я загружаю его на инструменты для веб-мастеров, я получаю:

Карта сайта - HTML - Ваш Sitemap выглядит как HTML-страница. Пожалуйста, используйте поддерживаемый формат карты сайта

Я попробовал несколько альтернатив (например, с или без www), но безуспешно.

Кто-нибудь знает?

Любая помощь приветствуется!

EDIT

Я попытался с xml sitemap и получил ту же ошибку, поэтому похоже, что сервер обслуживает все как HTML (как правильно подсказывает ceejayoz). Теперь вопрос в том ... как мне получить от сервера appspot текст сервера в виде простого текста ?

EDIT:

Хорошо - я сыт по горло и внедрил сервлет для явного отображения моих карт сайта (сейчас я пытаюсь использовать и XML, и TXT) как text / plain. Все работает нормально, если я вручную вызываю сервлет, но все еще получаю файл Sitemap в формате HTML. Я не знаю, куда мне биться!

EDIT: Я попытался проверить тип контента с помощью плагина Firefox - кажется, все идет как ожидается (я указываю фактический URL, чтобы люди могли посмотреть):

http://wokheisandbox.appspot.com/sitemaps/sitemap.txt -> Тип содержимого: текст / обычный http://wokheisandbox.appspot.com/sitemaps/sitemap.xml -> Тип содержимого: application / xml

С моим сервлетом (настройка text / plain явно): http://wokheisandbox.appspot.com/wokhei/serveSitemap?fileType=TXT -> Тип содержимого: текст / обычный http://wokheisandbox.appspot.com/wokhei/serveSitemap?fileType=XML -> Тип содержимого: текстовый / простой

Все, что я получаю от инструмента для веб-мастеров, -> Карта сайта - HTML .

EDIT

Кажется, я выяснил причину -> я зарегистрировал в своем инструменте Google для веб-мастеров мой сайт как http://mydomain.com, но приложение размещено в appspot по адресу http://myapp.appspot.com, который сопоставлен с mydomain.com. Если я регистрируюсь http://myapp.appspot.com, все работает нормально (карта сайта подтверждена).

Это хорошие новости, но они не идеальны, потому что я хочу, чтобы mydomain.com был проиндексирован ... есть идеи о том, как их преодолеть?

Ответы [ 5 ]

5 голосов
/ 03 августа 2009

Похоже, ваш веб-сервер обслуживает .txt файлы как text/html вместо text/plain.

Для Apache следующее в файле .htaccess должно это исправить:

AddType text/plain .txt
1 голос
/ 03 августа 2009

Я нашел эту ветку, обсуждающую повторяющиеся записи, вызывающие недавнее горе карты сайта . Я не вижу этой проблемы в вашей карте сайта, но вам не нужны дубликаты между записями. Например, убедитесь, что ваша карта сайта не содержит ОБА следующего:

http://mydomain.com/ or http://www.mydomain.com/

AND

http://mydomain.com/index.html or http://www.mydomain.com/index.html

Я думаю, что вы опубликовали всю свою карту сайта, поэтому, опять же, я не думаю, что это именно ваша проблема. Вы упоминали, что пробовали разные URL-адреса (с www и без www.) Если вы проверяете карту сайта с помощью Google WebMaster Tools, это может занять до 20 минут, чтобы исправление вступило в силу. Надеюсь, это поможет.

0 голосов
/ 10 августа 2009

На всякий случай, если вы передумаете о файлах сайтов, не относящихся к xml:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.test.com/</loc>
    <lastmod>2009-08-03T23:40:40+00:00</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>http://test/</loc>
    <lastmod>2009-08-03T23:59:08+00:00</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.6</priority>
  </url>
</urlset>
0 голосов
/ 10 августа 2009
<?xml version='1.0' encoding='utf-8' ?>
<urlset xmlns='http://www.sitemaps.org/schemas/sitemap/0.9'>
    <url>
        <loc>http://myDomain.com</loc>
    </url>
    <url>
        <loc>http://myDomain.com/about.html</loc>
    </url>
    <url>
        <loc>http://myDomain.com/faq.html</loc>
    </url>
    <url>
        <loc>http://myDomain.com/careers.html</loc>
    </url>
</urlset>

Этот способ всегда работает для меня.

0 голосов
/ 03 августа 2009

Я вполне уверен, что вам нужно предоставить файл Sitemap в формате XML (sitemap.xml). Смотрите здесь для примера формата: http://en.wikipedia.org/wiki/Sitemaps.

...