Сканер Google находит файл robots.txt, но не может его загрузить - PullRequest
2 голосов
/ 19 августа 2010

Может кто-нибудь сказать мне, что не так с этим robots.txt?

http://bizup.cloudapp.net/robots.txt

Ниже приведена ошибка, которую я получаю в Инструментах Google для веб-мастеров:

Sitemap errors and warnings
Line    Status  Details
Errors  -   
Network unreachable: robots.txt unreachable
We were unable to crawl your Sitemap because we found a robots.txt file at the root of
your site but were unable to download it. Please ensure that it is accessible or remove
it completely.

На самом деле ссылка выше - это отображение маршрута, по которому идет действие роботов. Это действие получает файл из хранилища и возвращает содержимое в виде текста / обычного. Google говорит, что они не могут загрузить файл. Это из-за этого?

Ответы [ 4 ]

4 голосов
/ 19 августа 2010

Похоже, что он читает robots.txt ОК, но ваш robots.txt затем утверждает, что http://bizup.cloudapp.net/robots.txt также является URL-адресом вашего XML-карты сайта, когда он действительно http://bizup.cloudapp.net/sitemap.xml. Кажется, ошибка пришла от Google пытается разобрать robots.txt как карту сайта XML. Вам нужно изменить robots.txt на

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/sitemap.xml

EDIT

На самом деле все идет немного глубже, и робот Googlebot не может вообще загружать страницы на вашем сайте. Вот исключение, которое возвращается, когда робот Googlebot запрашивает robots.txt или домашнюю страницу:

Аутентификация с использованием форм без файлов cookie не поддерживается для этого приложения.

Сведения об исключении: System.Web.HttpException: проверка подлинности с использованием форм без файлов cookie не поддерживается для этого приложения.

[HttpException (0x80004005): Cookieless Forms Authentication is not supported for this application.]
AzureBright.MvcApplication.FormsAuthentication_OnAuthenticate(Object sender, FormsAuthenticationEventArgs args) in C:\Projectos\AzureBrightWebRole\Global.asax.cs:129
System.Web.Security.FormsAuthenticationModule.OnAuthenticate(FormsAuthenticationEventArgs e) +11336832
System.Web.Security.FormsAuthenticationModule.OnEnter(Object source, EventArgs eventArgs) +88
System.Web.SyncEventExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute() +80
System.Web.HttpApplication.ExecuteStep(IExecutionStep step, Boolean& completedSynchronously) +266

FormsAuthentication пытается использовать режим без файлов cookie, поскольку он распознает, что робот Googlebot не поддерживает файлы cookie, но что-то в вашем методе FormsAuthentication_OnAuthenticate вызывает исключение, поскольку он не хочет принимать проверку подлинности без файлов cookie.

Я думаю, что самый простой способ это изменить в файле web.config, который не позволяет FormsAuthentication пытаться использовать режим без файлов cookie ...

<authentication mode="Forms"> 
    <forms cookieless="UseCookies" ...>
    ...
2 голосов
/ 04 октября 2012

Я исправил эту проблему простым способом: просто добавив файл robot.txt (в том же каталоге, что и мой файл index.html), чтобы разрешить любой доступ. Я пропустил это, намереваясь разрешить всем доступ таким образом, но, возможно, Инструменты Google для веб-мастеров затем обнаружили другой robot.txt, контролируемый моим провайдером?

Похоже, что по крайней мере для некоторых интернет-провайдеров вам нужен файл robot.txt, даже если вы не хотите исключать каких-либо ботов, просто чтобы предотвратить этот возможный сбой.

1 голос
/ 19 августа 2010

У меня нет проблем, чтобы получить ваш robots.txt

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/robots.txt

Но разве он не выполняет рекурсивный вызов robots.txt?

Файл Sitemap должен быть в формате xml, см. Википедия

1 голос
/ 19 августа 2010

Что-то не так с скриптом, который генерирует файл robots.txt.Когда GoogleBot обращается к файлу, он получает 500 Internal Server Error.Вот результаты проверки заголовка:

REQUESTING: http://bizup.cloudapp.net/robots.txt
GET /robots.txt HTTP/1.1
Connection: Keep-Alive
Keep-Alive: 300
Accept:*/*
Host: bizup.cloudapp.net
Accept-Language: en-us
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

SERVER RESPONSE: 500 INTERNAL SERVER ERROR
Cache-Control: private
Content-Type: text/html; charset=utf-8
Server: Microsoft-IIS/7.0
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET
Date: Thu, 19 Aug 2010 16:52:09 GMT
Content-Length: 4228
Final Destination Page

Вы можете проверить заголовки здесь http://www.seoconsultants.com/tools/headers/#Report

...