Как получить HTML-код внутри класса, используя Scrapy - PullRequest
0 голосов
/ 24 апреля 2019

Можно ли получить весь HTML-код внутри класса div messageContent Включая сам HTML-код?

Этот является URL.

Но я не могу получить сообщение целиком, и возможен ли его формат? Я попробовал:

item.css('div.messageContent blockquote::text').extract()

<div class="messageContent">
<article>
<blockquote class="messageText SelectQuoteContainer ugc baseHtml">
Since I accidentally killed the 2018 thread, here&#039;s a cross-post of             
that fateful missive.<br />
<br />
Happy New Year, all! Here&#039;s to 2019, the year we see (my 
predictions...):<br />
<br />
<ul>
<li>The fabled $35k Tesla become reality</li>
<li>The Model Y (give it to me now!)</li>
<li>HW 3 and some minor FSD umbrella features (but definitely not FSD)        
</li>
<li>Tesla getting customer communications under control (where 
&#039;control&#039; indicates at least third-grader aptitude)</li>
<li>Elon doing something incredibly stupid</li>
</ul>What are your predictions?<br />
<br />
Enjoy!<br />
<br />
 <img 
  src="https://teslamotorsclub.com/tmc/attachments/fb_img_1546317769765- 
  jpg.365117/" class="bbCodeImage LbImage" alt="[&#x200B;IMG]" data- 
  url="https://teslamotorsclub.com/tmc/attachments/fb_img_1546317769765- 
  jpg.365117/" />
<div class="messageTextEndMarker">&nbsp;</div>
</blockquote>
</article>
</div>

1 Ответ

1 голос
/ 24 апреля 2019

Да, вы можете сделать это полностью. Проблема в том, что вы используете ::text, который указывает селектор для извлечения только внутреннего текста внутри тегов.

Используйте что-то вроде этого:

item.css('div.messageContent blockquote').extract()

Что вернет все html внутри тега blockquote.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...