Использование grep для извлечения html из <div>тегов контейнера - PullRequest
0 голосов
/ 17 июля 2011

У меня есть страница, на которой много постов разных авторов. Я хочу, чтобы сообщения пользователя А были на этой странице сообщений.

Как настроить grep для просмотра html-блока каждого сообщения на странице автора, а затем распечатать содержимое сообщения в файл? Структура поста похожа на

<!--Begin Msg Number #####-->

[useless junk i'm not interested in here]

<span class="author vcard"><a class="url fn" href='url here'>User A</a>&nbsp;</span>

[more junk]

<div class='post entry-content '>
                    <!--cached-some date string--> Here's the text I want to extract    
                </div>

[more junk]


<hr />

Я думаю, что структура похожа на

grep /pattern/ output file 

но нужно ли явно указывать, чтобы он охотился только между

<!-- begin msg ... --> 

и

<hr /> 

теги, которые ограничивают сообщение, или достаточно интеллектуален, чтобы сделать это автоматически? Я обеспокоен тем, что когда grep находит шаблон пользователя A, он печатает все содержимое сообщения в файл, а не только в конкретный.

1 Ответ

0 голосов
/ 17 июля 2011

Если весь текст поста находится в одной строке, попробуйте

grep /(author vcard|<!--cached-)/
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...