отрицательное регулярное выражение с функцией xidel + сборщик мусора - PullRequest
1 голос
/ 14 июня 2019

В настоящее время я использую эту команду для извлечения URL-адресов с сайта:

xidel https://www.website.com --extract "//h1//extract(@href, '.*')[. != '']"

Это извлечет все URL (. *), Но я бы хотел изменить это так, чтобы не извлекать URL, содержащие строки на своем пути. Например: я хотел бы извлечь все URL, кроме тех, которые содержат -text1- и -text2-

Также в xidel есть функция сборщика мусора, но мне не ясно, как использовать эти функции. Я мог бы быть

--extract garbage-collect()

или

--extract garbage-collect()[0]

или

x:extract garbage-collect()

или

x"extract garbage-collect()

Но это не уменьшило использование памяти при извлечении URL-адресов из нескольких страниц с помощью --follow.

...