Некоторая информация, которая может помочь.
Нет официального органа по стандартизации или RFC для протокола robots.txt.Он был создан консенсусом в июне 1994 года членами списка рассылки роботов (robots-request@nexor.co.uk).Информация, указывающая части, к которым нельзя обращаться, указана в файле с именем robots.txt в каталоге верхнего уровня веб-сайта.Шаблоны robots.txt сопоставляются с помощью простых сравнений подстрок, поэтому следует убедиться, что к шаблонам, соответствующим каталогам, добавлен последний символ '/', иначе все файлы с именами, начинающимися с этой подстроки, будут совпадать, а не только те, которые находятся вкаталог предназначен.
Существует нет 100% уверенного способа исключить ваши страницы из поиска, кроме как вообще не публиковать их, конечно.
См:http://www.robotstxt.org/robotstxt.html
Нет согласия в консенсусе.Кроме того, опция Regex также отсутствует в Консенсусе.
Из консенсуса роботов:
В настоящее время это немного неудобно, так как нет поля «Разрешить».Самый простой способ - поместить все файлы, которые нужно запретить, в отдельный каталог, например «stuff», и оставить один файл на уровне выше этого каталога:
User-agent: *
Disallow: /~joe/stuff/
В качестве альтернативы вы можете явно запретить все запрещенные страницы.:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
A Возможное решение :
Используйте .htaccess, чтобы запретить поисковым роботам из определенной папки при блокировке плохих роботов.
Смотри: http://www.askapache.com/htaccess/setenvif.html