добрый день.В настоящее время я пишу программу Scrapy, чтобы переписать новостной сайт.Я новичок в Scrapy, и я столкнулся с трудностями, которые не позволили мне прогрессировать в моем коде.
Веб-сайт, который я сейчас пытаюсь удалить, - https://www.thestar.com.my/news/nation
Внутри html-тегов страницы есть тег div с class = "list-list-row" .Я пытаюсь получить тег абзац внутри тега div , но Скрапи почему-то не может найти этот тег.
Я проверил все закрытые теги, но все они, похоже, закрыты.Так почему же Scrapy не смог получить этот тег?Самым внутренним тегом, который может извлечь Scrapy, является div class = "sub-section-list" , который находится вне div class = "row list-list"
Кроме того, когда я получаю тег div class = "sub-section-list" , он извлекает только эти HTML-теги:
"<div class=""sub-section-list"">
<div class=""button-view btnLoadMore"" style=""margin: 10px auto 15px;"">
<a id=""loadMorestories"">Load more </a>
</div>
</div>"
При проверке веб-сайта мне нужны следующие теги
Тег веб-сайта
Я включумой основной код.Я только начал проект, поэтому я не добился никакого прогресса после этой проблемы.
import scrapy
class WebCrawl(scrapy.Spider):
name = "spooder"
allowed_domains = ["thestar.com.my"]
start_urls = ["https://www.thestar.com.my/news/nation"]
def parse(self, response):
text = response.xpath("//div[@class='sub-section-list']").extract()
yield {
'text' : text
}
Если я забыл добавить какие-либо другие необходимые вещи, пожалуйста, сообщите.Любая помощь будет принята с благодарностью.