Question

Я использую sed для разбора некоторой HTML-страницы, вот код:

name=`echo $p | sed -n 's/.*href=\"\([^"]*\)" class=\"alleLink iTitle\"><span>\([^<]*\)<\/span>.*/\1/p'`;

Когда есть совпадение, оно работает хорошо - возвращает требуемую подстроку.Но когда нет совпадения, sed просто останавливается и скрипт ничего не делает.Я просто хочу получить пустую строку или что-то в этом роде.

Вы знаете, что делать?

Спасибо, Роман Zkamene

ata · Answer 1 · 17 ноября 2011

Пара баллов:

Это неизбежно должно быть первым
Вы можете упростить выражение, используя переключатель -r для sed

Gilles Quenot · Answer 2 · 17 ноября 2011

Рекомендую установить Perl-модуль WWW :: Mechanize с помощью команды

cpan -i WWW::Mechanize

или найдите в вашем менеджере пакетов perl. * Mechanize

тогда вы сможете запустить эту команду в оболочке (интерактивно или нет), чтобы увидеть все ссылки на странице:

mech-dump --links http://foobar.tld

Более того, sed не является подходящим инструментом для разбора HTML. Python Ruby или Perl будет вашим лучшим выбором.

Я думаю на примере

питон + lxml или питон + красивый суп
Perl + WWW :: Механизация

Еще одна вещь:

вы можете использовать любой символ в качестве разделителя, так что экранирование / не обязательно и будет более читабельным для всех

Команда Bash-Sed зависает, когда ничего не найдено

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Команда Bash-Sed зависает, когда ничего не найдено

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов