Я использую TYPO3 на сайте, содержащем около 4 тысяч страниц. В / fileadmin я храню html страниц, которые TYPO3 выбирает с помощью плагина "fetchurl". Структура папок имеет ту же иерархическую структуру, что и дерево страниц TYPO3: fileadmin / folder1 / folder2 / folder3 / file. html, которая отображается как www.example.com/folder1/folder2/folder3/file.html Во всех случаях дерево точно соответствует структуре навигации веб-сайта. ,
Страницы html содержат минимальные теги форматирования, такие как p, div, img и так далее. Нет css, нет заголовка, нет нижнего колонтитула. TYPO3 сделает все остальное. Я защищал / fileadmin, используя robots.txt, чтобы избежать индексации сканерами. Да, я знаю, что сканеры сканируют все независимо от файла robots.txt. (Кстати, в Apache я заблокировал доступ ко многим сканерам).
Этот подход работал нормально в течение 20 лет без проблем, но сегодня я получил электронное письмо от Google, которое гласит:
Top Warnings. ... Некоторые предупреждения могут повлиять на вашу внешность в поиске; некоторые могут быть реклассифицированы как ошибки в будущем (выделено мной). На вашем сайте были обнаружены следующие предупреждения: проиндексированы, но заблокированы файлом robots.txt Мы рекомендуем по возможности исправлять эти проблемы, чтобы обеспечить максимальный охват и охват в поиске Google.
Вопрос в том, что лучший способ преодолеть эту проблему?
-Заменить расширение html чем-то другим и использовать ограничение FilesMatch?
-Использовать папку разрешение заблокировать доступ извне?
-Move / fileadmin outside public_ html? (В течение многих лет я думал о перемещении многих папок за пределы public_ html)
-Используйте тег 'noindex'? (Работает ли оно в имени файла. html без объявления! DOCTYPE и без заголовка?)
Любая другая идея?
Спасибо Вы