Я пытаюсь использовать wget для загрузки всех сайтов моего проекта typo3.Цель состоит в том, чтобы сделать cronjob с этой командой, чтобы построить кеш и поисковый индекс.Во время тестирования команда wget показывает странное поведение.
Операционная система - OpenSuse Tumbleweed, работающая под управлением Apache и MySQL.
Typo3 9.5.9 был установлен через composer.Файл composer.json находится в / srv / www / typo3install, Documentroot ist / srv / www / htdocs.Модуль среды typo3 говорит, что все мои разрешения в порядке (разница htaccess для статического файлового кэша).Это моя конфигурация сайта (config.yaml):
rootPageId: 1
base: /
baseVariants: { }
languages:
-
title: Deutsch
enabled: true
languageId: '0'
base: /
typo3Language: de
locale: de_DE.UTF-8
iso-639-1: de
navigationTitle: Deutsch
hreflang: de
direction: ''
flag: de
-
title: English
enabled: true
languageId: '1'
base: /en/
typo3Language: default
locale: en_UK.UTF-8
iso-639-1: en
navigationTitle: English
hreflang: en
direction: ''
fallbackType: fallback
fallbacks: '0'
flag: gb
errorHandling: { }
routeEnhancers:
PageTypeSuffix:
type: PageType
map:
sitemap.xml: 1533906435
routes:
-
route: robots.txt
type: staticText
content: "User-agent: *\r\n\r\n# Only allow URLs generated with RealURL\r\nDisallow: /*?id=*\r\nDisallow: /*&id=*\r\n\r\n# L=0 is the default language\r\nDisallow: /*?L=0*\r\nDisallow: /*&L=0*\r\n\r\n# typeNum = 98 is usually the print version.\r\nDisallow: /*?type=98*\r\nDisallow: /*&type=98*\r\n\r\n# Should always be protected (.htaccess)\r\nDisallow: /*/Private/*\r\nDisallow: /fileadmin/templates/html/*\r\nDisallow: /*/Configuration/*\r\n\r\nDisallow: /typo3temp/*\r\nAllow: /typo3temp/*.css\r\nAllow: /typo3temp/*.css.*.gzip\r\nAllow: /typo3temp/*.js\r\nAllow: /typo3temp/*.js.*.gzip\r\nAllow: /typo3temp/*.jpg\r\nAllow: /typo3temp/*.gif\r\nAllow: /typo3temp/*.png\r\n\r\nDisallow: *.sql\r\nDisallow: *.sql.gz\r\n\r\nDisallow: /typo3/\r\nDisallow: /typo3_src/\r\nDisallow: /template/\r\nAllow: /typo3/sysext/frontend/Resources/Public/*\r\nAllow: /template/Resources/Public/*\r\nSitemap: localhost/sitemap.xml\r\nSitemap: localhost/sitemap.xml"
disableStaticFileCache: false
httpd.conf для documentroot:
<Directory "/srv/www/htdocs">
Options Indexes FollowSymLinks ExecCGI Includes
AllowOverride All
Require local
</Directory>
Команда:
wget -v -r http://localhost -P /srv/www/htdocs/typo3temp/tmpbuild
Thisизвлекает только содержимое / srv / www / htdocs / typo3temp.Но если я начну с подстраницы дерева страниц, весь сайт будет извлечен:
wget -v -r http://localhost/products/ -P /srv/www/htdocs/typo3temp/tmpbuild
Я думаю, что это не то поведение, которое должно быть: начиная с базового URL-адреса следует получить все дерево.Я не могу понять, пропустил ли я вариант wget или что-то не так с моей конфигурацией.
Заранее спасибо, Starger.
PS: Создание скрытой подстраницы и использованиеэто как отправная точка работает.Но это всего лишь обходной путь.