У меня несколько раз встречается следующая (упрощенная) структура данных, найденная в программном обеспечении форума:
<li id="post12345" class="anchorFixedHeader" style="order: 1">
<div class="messagesidebar member" item-prop="author">
<div class="messageauthor">
<div class="messageauthorcontainer">
<a id="mac12">
<span class="username" itemprop="text">MostInnovativeUsernameEver</span>
</a>
</div>
</div>
</div>
<div class="messagecontent">
<div class="messagebody">
<div class="messagetext" itemprop="text">
Text before the quote.
<blockquote class="quotebox">
<div class="quoteboxcontent">
<p>
Hello, I'm a quote.
</p>
</div>
</blockquote>
Text after the class.
</div>
</div>
</div>
</li>
Что я хочу сделать для каждого случая, так это извлечь имя пользователя и для каждого имени пользователя соответствующее содержание сообщения. Я мог бы сделать это успешно, если бы не было единственной проблемы: цитата. Когда я распечатываю извлеченные данные в консоли, структура данных цитаты (естественно) портится.
Мне (кажется) нужен текст перед цитатой, сама цитата и текст после цитаты, чтобы разобраться с ними отдельно. Я перепробовал кучу вещей, но пока еще не нашел свой путь в красивой паре.
Тьфу ... ребята, вы понимаете, что я пытаюсь сделать?