Может ли секретный URL быть проиндексирован поисковыми системами? - PullRequest
1 голос
/ 23 ноября 2010

Мой босс недавно пришел ко мне с проблемой безопасности.

Моя компания проводит исследования, а затем отправляет отчет клиенту (этот отчет уникален для каждого клиента и содержит идентификационную информацию об их бизнесе).

Мы отправляем отчет по электронной почте клиенту, но также загружаем его на наш сервер и предоставляем клиенту URL-адрес, содержащий хэш, который он может использовать для доступа к отчету в режиме онлайн в любое время. (другими словами, любой, у кого есть ссылка, может получить доступ к отчету) Ссылка выглядит примерно так:

Код на странице делает следующее:

  • взрывает хеш и использует его для поиска информации отчета в базе данных
  • подтверждает, что этот хэш действительно действителен в соответствии с идентификатором отчета и электронной почтой
  • получает отчет pdf с сервера и отображает его.

Если хэш в URL-адресе не существует или недействителен, пользователь получает «недействительное» сообщение.

Его вопрос:

Если щелкнуть ссылку, откроется отчет. Означает ли это, что Google может проиндексировать эти страницы, и они могут появиться в результатах поиска Google для всего мира?

У меня такое ощущение, что нет, если сканер попадет на report_page.php, все, что он увидит, будет недействительным сообщением, если только у него нет действительного хэша, но я точно не знаю, и после поиска вокруг, я не придумал ничего, чтобы доказать, что я прав (или нет).

Есть мысли? Спасибо!

Ответы [ 3 ]

4 голосов
/ 23 ноября 2010

Если URL-адрес размещен на общедоступной странице, сканеры Google найдут его и страница будет проиндексирована. Из того, что вы говорите, это звучит маловероятно, поэтому вы должны быть в безопасности. Если ваш клиент все же сделает URL общедоступным, то Google будет сканировать и индексировать его. Это похоже на пароль: держите его в секрете, и вы в безопасности.

1 голос
/ 23 ноября 2010

Сканер, безусловно, может индексировать такие страницы - многие веб-сайты используют длинные непрозрачные хэши для идентификации страниц, что само по себе не имеет никакого значения для поисковых систем.

Вам необходим файл robots.txt, запрещающий доступ к этим URL-адресам, и добавьте соответствующие заголовки и метатеги, поясняющие, что сканеры не должны их индексировать.Также, если это действительно личные данные, транзакция должна быть зашифрована с помощью SSL.Вы также можете рассмотреть возможность использования хэшей только один раз, т. Е. Требовать отправки нового хэша по электронной почте каждый раз, когда клиент хочет его скачать.Это эффективно предотвратит их случайное сканирование (или людей).(хотя между временем отправки электронного письма и тем, когда клиент использует вложенный хэш, все еще существует условие гонки)

0 голосов
/ 23 ноября 2010

в robots.txt вы можете запретить Google и другим поисковым системам индексировать ваш URL

по умолчанию поисковая система проиндексировала ваш URL, если вы связываете его где-либо

...