Я пытался заставить Django Dynamic Scraper работать в течение последних 5 часов, но это ни к чему не привело.Каждый раз, когда я пытаюсь получить подробный объект страницы, которую я очищаю, я получаю сообщение об ошибке mandatory elem description missing!
Я обнаруживал ту же проблему здесь при переполнении стека, а также в GitHub.
Можно посмотреть здесь: Django-dynamic-scraper не может очистить данные
и здесь: https://github.com/holgerd77/django-dynamic-scraper/issues/26
Однако это не решаетПроблема в том, что ответом является просто удаление заголовка с главной страницы вместо страницы с подробностями.Это позволяет избежать проблемы, а не решить ее.
Итак, это моя установка:
Если вы посмотрите соответствующую страницу статьи на https://cryptonews.com/news/bitcoin-and-altcoins-showing-signs-of-weakness-3673.htm
и просмотрите консоль для элемента DOM.-> $x("//div[@class='cn-content']/p")
это вернет p элементов.
Так что xpath должен быть правильным.Однако я все еще получаю этот след:
2019-04-13 11:05:22 [dds] INFO: Starting to crawl item 33 from page 1(0).
2019-04-13 11:05:22 [dds] INFO: --------------------------------------------------------------------------------------
2019-04-13 11:05:22 [dds] INFO: MP HTML|GET title 1(0)-33 OKEx Announced its First Token Sale via IEO
2019-04-13 11:05:22 [dds] INFO: MP HTML|GET url 1(0)-33 https://cryptonews.com/news/okex-announced-its-first-token-sale-via-ieo-3647.htm
2019-04-13 11:05:22 [dds] INFO: MP HTML|GET img_url 1(0)-33 https://cimg.co/w/articles/4/5ca/71a18df47d.jpg
2019-04-13 11:05:22 [dds] INFO: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
2019-04-13 11:05:22 [dds] INFO: Calling DP3 URL for item 1(0)-33...
2019-04-13 11:05:22 [dds] INFO: URL : https://cryptonews.com/news/okex-announced-its-first-token-sale-via-ieo-3647.htm
2019-04-13 11:05:22 [dds] INFO: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-23 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-24 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-15 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-25 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-28 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-17 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-26 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-27 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-29 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-30 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-31 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-33 dropped, mandatory elem description missing!
2019-04-13 11:05:23 [dds] ERROR: Item 1(0)-32 dropped, mandatory elem description missing!
2019-04-13 11:05:23 [scrapy.core.engine] INFO: Closing spider (finished)
2019-04-13 11:05:23 [dds] INFO: Closing Django DB connection.
2019-04-13 11:05:23 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 12071,
'downloader/request_count': 35,
'downloader/request_method_count/GET': 35,
'downloader/response_bytes': 376126,
'downloader/response_count': 35,
'downloader/response_status_count/200': 34,
'downloader/response_status_count/301': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2019, 4, 13, 11, 5, 23, 39450),
'item_dropped_count': 33,
'item_dropped_reasons_count/DropItem': 33,
'log_count/ERROR': 33,
'log_count/INFO': 379,
'memusage/max': 66011136,
'memusage/startup': 66011136,
'request_depth_max': 1,
'response_received_count': 34,
'scheduler/dequeued': 35,
'scheduler/dequeued/memory': 35,
'scheduler/enqueued': 35,
'scheduler/enqueued/memory': 35,
'start_time': datetime.datetime(2019, 4, 13, 11, 5, 18, 861139)}
2019-04-13 11:05:23 [scrapy.core.engine] INFO: Spider closed (finished)
Может кто-нибудь, пожалуйста, помогите мне?