Как исключить несколько доменов, используя W3C Checklink - PullRequest
0 голосов
/ 21 мая 2019

Команда checklink поддерживает параметр --exclude, который принимает регулярное выражение. Пример:

checklink --exclude foo\.com/.* http://example.com

Увы, example.com ссылается на несколько сайтов, многие из которых используют robots.txt, чтобы заблокировать контрольную ссылку, и, таким образом, я получаю много не проверенных ссылок в выводе.

Я исключил foo.com, как указано выше. Как я могу исключить несколько доменов? Если у меня несколько параметров --exclude, учитывается только последний.

checklink --version дает «W3C Link Checker версии 4.81 (c) 1999-2011 W3C»; aptitude show w3c-linkchecker дает "версию 4.81-9"; Я в стабильной Debian.

1 Ответ

1 голос
/ 21 мая 2019

Ура для отладки резиновой утки.

Ответ в регулярном выражении. В частности:

checklink --exclude "(foo|bar)\.com/.*" http://example.com

Это исключает все страницы на foo.com и bar.com. Обратите внимание на кавычки, скобки и трубу.

Альтернативы также могут быть вложенными:

checklink --exclude "(foo|b(ar|az))\.com/.*" http://example.com

Это исключает все страницы на foo.com, bar.com и baz.com.

...