Wget выбирает typo3temp вместо дерева страниц - PullRequest
0 голосов
/ 23 сентября 2019

Я пытаюсь использовать wget для загрузки всех сайтов моего проекта typo3.Цель состоит в том, чтобы сделать cronjob с этой командой, чтобы построить кеш и поисковый индекс.Во время тестирования команда wget показывает странное поведение.

Операционная система - OpenSuse Tumbleweed, работающая под управлением Apache и MySQL.

Typo3 9.5.9 был установлен через composer.Файл composer.json находится в / srv / www / typo3install, Documentroot ist / srv / www / htdocs.Модуль среды typo3 говорит, что все мои разрешения в порядке (разница htaccess для статического файлового кэша).Это моя конфигурация сайта (config.yaml):

rootPageId: 1
base: /
baseVariants: {  }
languages:
  -
    title: Deutsch
    enabled: true
    languageId: '0'
    base: /
    typo3Language: de
    locale: de_DE.UTF-8
    iso-639-1: de
    navigationTitle: Deutsch
    hreflang: de
    direction: ''
    flag: de
  -
    title: English
    enabled: true
    languageId: '1'
    base: /en/
    typo3Language: default
    locale: en_UK.UTF-8
    iso-639-1: en
    navigationTitle: English
    hreflang: en
    direction: ''
    fallbackType: fallback
    fallbacks: '0'
    flag: gb
errorHandling: {  }
routeEnhancers:
  PageTypeSuffix:
    type: PageType
    map:
      sitemap.xml: 1533906435
routes:
  -
    route: robots.txt
    type: staticText
    content: "User-agent: *\r\n\r\n# Only allow URLs generated with RealURL\r\nDisallow: /*?id=*\r\nDisallow: /*&id=*\r\n\r\n# L=0 is the default language\r\nDisallow: /*?L=0*\r\nDisallow: /*&L=0*\r\n\r\n# typeNum = 98 is usually the print version.\r\nDisallow: /*?type=98*\r\nDisallow: /*&type=98*\r\n\r\n# Should always be protected (.htaccess)\r\nDisallow: /*/Private/*\r\nDisallow: /fileadmin/templates/html/*\r\nDisallow: /*/Configuration/*\r\n\r\nDisallow: /typo3temp/*\r\nAllow: /typo3temp/*.css\r\nAllow: /typo3temp/*.css.*.gzip\r\nAllow: /typo3temp/*.js\r\nAllow: /typo3temp/*.js.*.gzip\r\nAllow: /typo3temp/*.jpg\r\nAllow: /typo3temp/*.gif\r\nAllow: /typo3temp/*.png\r\n\r\nDisallow: *.sql\r\nDisallow: *.sql.gz\r\n\r\nDisallow: /typo3/\r\nDisallow: /typo3_src/\r\nDisallow: /template/\r\nAllow: /typo3/sysext/frontend/Resources/Public/*\r\nAllow: /template/Resources/Public/*\r\nSitemap: localhost/sitemap.xml\r\nSitemap: localhost/sitemap.xml"
disableStaticFileCache: false

httpd.conf для documentroot:

<Directory "/srv/www/htdocs">
    Options Indexes FollowSymLinks ExecCGI Includes
    AllowOverride All
    Require local
</Directory>

Команда:

wget -v -r http://localhost -P /srv/www/htdocs/typo3temp/tmpbuild

Thisизвлекает только содержимое / srv / www / htdocs / typo3temp.Но если я начну с подстраницы дерева страниц, весь сайт будет извлечен:

wget -v -r http://localhost/products/ -P /srv/www/htdocs/typo3temp/tmpbuild

Я думаю, что это не то поведение, которое должно быть: начиная с базового URL-адреса следует получить все дерево.Я не могу понять, пропустил ли я вариант wget или что-то не так с моей конфигурацией.

Заранее спасибо, Starger.

PS: Создание скрытой подстраницы и использованиеэто как отправная точка работает.Но это всего лишь обходной путь.

1 Ответ

0 голосов
/ 25 сентября 2019

Мне пришлось внести некоторые изменения (переключиться на HTTP2 и SSL) на сервере, и проблема, похоже, больше не присутствует.

...