robots.txt обрабатывает # в URL - PullRequest
       41

robots.txt обрабатывает # в URL

0 голосов
/ 08 декабря 2018

С учетом следующих URL:

  • example.com / products
  • example.com / products # / page-2
  • example.com / products #/ page-3
  • ...

Используя файл robots.txt, предполагается, что первый URL (example.com/products) будет проиндексирован, а все остальные должныбыть заблокирован от индексации.Как это можно сделать?

Ни одна из следующих попыток не работает желаемым образом:

  • Noindex: /products#/page-*
  • Noindex: /products\#/page-*
  • Noindex: /*/page-*
  • Noindex: /*#/page-*
  • Noindex: /*\#/page-*

Ответы [ 2 ]

0 голосов
/ 08 декабря 2018

Все, что после #, называется «якорь».Эта информация НЕ передается на сервер, поэтому вы не можете прочитать ее из PHP или любого другого языка, который выполняется на стороне сервера.

Как @Evert Outlines, «якорный тег» обычно используется в javascript, так как его можно модифицировать БЕЗ необходимости в реальном перенаправлении, позволяющем генерировать глубокие ссылки, для динамического контента.(Они работают, потому что на стороне клиента javascript позаботится об использовании AJAX для динамической загрузки контента на основе тега привязки)

0 голосов
/ 08 декабря 2018

/products#/page не уникальная страница.Фактический URL-адрес просто /products.

# используется для подключения к инфраструктуре javascript, которая динамически загружает другие страницы, но, как правило, /products#/page означает, что ваша страница /products имеет такой элемент, какэто <a name="#/page">, и вы не можете блокировать определенные элементы.

SPA разрушают сеть.Вам лучше создавать реальные независимые страницы.

...