В настоящее время я использую эту команду для извлечения URL-адресов с сайта:
xidel https://www.website.com --extract "//h1//extract(@href, '.*')[. != '']"
Это извлечет все URL (. *), Но я бы хотел изменить это так, чтобы не извлекать URL, содержащие строки на своем пути. Например: я хотел бы извлечь все URL, кроме тех, которые содержат -text1- и -text2-
Также в xidel есть функция сборщика мусора, но мне не ясно, как использовать эти функции. Я мог бы быть
--extract garbage-collect()
или
--extract garbage-collect()[0]
или
x:extract garbage-collect()
или
x"extract garbage-collect()
Но это не уменьшило использование памяти при извлечении URL-адресов из нескольких страниц с помощью --follow.