Скребок - Как сохранить и сохранить эмодзи - PullRequest
0 голосов
/ 08 сентября 2018

В настоящее время я использую Scraper из https://scrapy.org/ в среде Python 3.x и Ubuntu, так или иначе я хотел бы получить комментарий пользователя на форуме, и который содержит текст, а также emoji.

Хотите знать, как мы сохраняем эти эмодзи в массиве, чтобы я мог видеть это в cvs или json?

Спасибо

Ответы [ 2 ]

0 голосов
/ 08 сентября 2018

Будет хорошо, если вы хотя бы предоставите HTML-код страницы.

Если emoji и текст заключены в родительский элемент, скажем, div с классом комментариев, как показано ниже.

<div class="comment">
    <div class="description">This is a comment.</div>
    <span>:-)</span>
</div>

тогда вы можете использовать следующий XPath или CSS селектор.

response.css('.comment ::text').extract()

или

response.xpath('.//div[@class="comment"]//text()').extract()
0 голосов
/ 08 сентября 2018

Возможно, это связано со структурой HTML. Если в подэлементе есть смайлики, вы можете использовать string() функцию в вашем выражении xpath.

response.xpath('string(.//xpath/to/comment)')
...