Парсер тега href на сайте с оболочкой bash - PullRequest
0 голосов
/ 21 ноября 2018

У меня есть веб-сайт с одним URL внутри.это тег href

Мне нужно проанализировать веб-сайт, чтобы сохранить значение "href".

На этой странице веб-сайта есть только один тег "href".У этого "href" нет имени класса.

я сейчас использую оболочку bash с curl

, я попробовал это:

curl http://MyWebsite |grep "href =" |cut -d '>' -f4 |cut -d '<' -f1 </p>

но безрезультатно.Я новичок в Bash Shell

У кого-нибудь есть идея?Спасибо за ваши ответы

Ответы [ 2 ]

0 голосов
/ 21 ноября 2018

Я знаю, что есть только один href, но на всякий случай ... вы также можете извлечь URL-адреса из всех якорей внутри HTML-документа с помощью sed и grep:

curl -s http://MyWebsite  | grep -o '<a .*href=.*>' | sed -e 's/<a /\n<a /g' | sed -e 's/<a .*href=['"'"'"]//' -e 's/["'"'"'].*$//' -e '/^$/ d'
0 голосов
/ 21 ноября 2018

Если вы хотите сохранить href= часть

curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"'

Если вам нужен только URL без href=

curl -s http://MyWebsite | grep -E -io 'href="[^\"]+"' | awk -F\" '{print$2}'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...