Попытка «grep» ссылок с загруженных html-страниц в среде оболочки bash без команд cut, sed, tr (только e / grep) - PullRequest
0 голосов
/ 29 сентября 2011

В оболочке Linux я пытаюсь вернуть ссылки на файлы JPG из загруженного файла сценария HTML.До сих пор я только дошел до этой точки:

grep 'http://[:print:]*.jpg' 'www_page.html'

Я не хочу использовать вспомогательные команды, такие как 'tr', 'cut', 'sed' и т. Д. 'Lynx' - это нормально!

1 Ответ

2 голосов
/ 29 сентября 2011

Использование одного только grep без массирования файла выполнимо, но не рекомендуется, как многие отметили в комментариях.

Если вы можете немного ослабить ваши требования, тогда вы можете использовать html tidy чтобы массировать загруженный HTML-файл так, чтобы каждый html-объект находился в одной строке, чтобы регулярное выражение могло быть проще, чем вы хотели, примерно так:

$ tidy file.html|grep -o 'http://[[:print:]]*.jpg'

Обратите внимание на использование "-o"опция grep для печати только соответствующей части ввода

...