как остановить сканирование Google / fileadmin - PullRequest
0 голосов
/ 25 февраля 2020

Я использую TYPO3 на сайте, содержащем около 4 тысяч страниц. В / fileadmin я храню html страниц, которые TYPO3 выбирает с помощью плагина "fetchurl". Структура папок имеет ту же иерархическую структуру, что и дерево страниц TYPO3: fileadmin / folder1 / folder2 / folder3 / file. html, которая отображается как www.example.com/folder1/folder2/folder3/file.html Во всех случаях дерево точно соответствует структуре навигации веб-сайта. ,

Страницы html содержат минимальные теги форматирования, такие как p, div, img и так далее. Нет css, нет заголовка, нет нижнего колонтитула. TYPO3 сделает все остальное. Я защищал / fileadmin, используя robots.txt, чтобы избежать индексации сканерами. Да, я знаю, что сканеры сканируют все независимо от файла robots.txt. (Кстати, в Apache я заблокировал доступ ко многим сканерам).

Этот подход работал нормально в течение 20 лет без проблем, но сегодня я получил электронное письмо от Google, которое гласит:

Top Warnings. ... Некоторые предупреждения могут повлиять на вашу внешность в поиске; некоторые могут быть реклассифицированы как ошибки в будущем (выделено мной). На вашем сайте были обнаружены следующие предупреждения: проиндексированы, но заблокированы файлом robots.txt Мы рекомендуем по возможности исправлять эти проблемы, чтобы обеспечить максимальный охват и охват в поиске Google.

Вопрос в том, что лучший способ преодолеть эту проблему?

  • -Заменить расширение html чем-то другим и использовать ограничение FilesMatch?

  • -Использовать папку разрешение заблокировать доступ извне?

  • -Move / fileadmin outside public_ html? (В течение многих лет я думал о перемещении многих папок за пределы public_ html)

  • -Используйте тег 'noindex'? (Работает ли оно в имени файла. html без объявления! DOCTYPE и без заголовка?)

  • Любая другая идея?

Спасибо Вы

1 Ответ

0 голосов
/ 26 февраля 2020

В идеале вы хотите переместить файлы за пределы документа root (public_ html). Я не знаю расширение fetchurl, но из описания вам нужен URL для доступа к файлам. Так что это не может быть вариантом без замены этого расширения.

Если перемещение файлов за пределы документа root не вариант, я бы ограничил доступ по IP-адресу. Вы можете сделать это, добавив файл .htaccess (при условии, что на вашем сервере не отключена поддержка .htaccess) в fileadmin со следующим содержимым:

<RequireAny>
  Require local
</RequireAny>

Или, если используется Apache <2.4: </p>

Order deny,allow
Deny from all
Allow from 127.0.0.1
Allow from ::1
...