Django Dynamic Scraper ERROR отсутствует обязательное описание элемента при просмотре страницы с подробностями статьи - PullRequest
0 голосов
/ 13 апреля 2019

Я пытался заставить Django Dynamic Scraper работать в течение последних 5 часов, но это ни к чему не привело.Каждый раз, когда я пытаюсь получить подробный объект страницы, которую я очищаю, я получаю сообщение об ошибке mandatory elem description missing!

Я обнаруживал ту же проблему здесь при переполнении стека, а также в GitHub.

Можно посмотреть здесь: Django-dynamic-scraper не может очистить данные

и здесь: https://github.com/holgerd77/django-dynamic-scraper/issues/26

Однако это не решаетПроблема в том, что ответом является просто удаление заголовка с главной страницы вместо страницы с подробностями.Это позволяет избежать проблемы, а не решить ее.

Итак, это моя установка:

enter image description here

Если вы посмотрите соответствующую страницу статьи на https://cryptonews.com/news/bitcoin-and-altcoins-showing-signs-of-weakness-3673.htm

и просмотрите консоль для элемента DOM.-> $x("//div[@class='cn-content']/p") это вернет p элементов.

Так что xpath должен быть правильным.Однако я все еще получаю этот след:

2019-04-13 11:05:22 [dds] INFO: Starting to crawl item 33 from page 1(0).
2019-04-13 11:05:22 [dds] INFO: --------------------------------------------------------------------------------------
2019-04-13 11:05:22 [dds] INFO: MP   HTML|GET      title                1(0)-33 OKEx Announced its First Token Sale via IEO
2019-04-13 11:05:22 [dds] INFO: MP   HTML|GET      url                  1(0)-33 https://cryptonews.com/news/okex-announced-its-first-token-sale-via-ieo-3647.htm
2019-04-13 11:05:22 [dds] INFO: MP   HTML|GET      img_url              1(0)-33 https://cimg.co/w/articles/4/5ca/71a18df47d.jpg
2019-04-13 11:05:22 [dds] INFO: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
2019-04-13 11:05:22 [dds] INFO: Calling DP3 URL for item 1(0)-33...
2019-04-13 11:05:22 [dds] INFO: URL     : https://cryptonews.com/news/okex-announced-its-first-token-sale-via-ieo-3647.htm
2019-04-13 11:05:22 [dds] INFO: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-23 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-24 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-15 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-25 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-28 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-17 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-26 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-27 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-29 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-30 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-31 dropped, mandatory elem description missing!
2019-04-13 11:05:22 [dds] ERROR: Item 1(0)-33 dropped, mandatory elem description missing!
2019-04-13 11:05:23 [dds] ERROR: Item 1(0)-32 dropped, mandatory elem description missing!
2019-04-13 11:05:23 [scrapy.core.engine] INFO: Closing spider (finished)
2019-04-13 11:05:23 [dds] INFO: Closing Django DB connection.
2019-04-13 11:05:23 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 12071,
 'downloader/request_count': 35,
 'downloader/request_method_count/GET': 35,
 'downloader/response_bytes': 376126,
 'downloader/response_count': 35,
 'downloader/response_status_count/200': 34,
 'downloader/response_status_count/301': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 4, 13, 11, 5, 23, 39450),
 'item_dropped_count': 33,
 'item_dropped_reasons_count/DropItem': 33,
 'log_count/ERROR': 33,
 'log_count/INFO': 379,
 'memusage/max': 66011136,
 'memusage/startup': 66011136,
 'request_depth_max': 1,
 'response_received_count': 34,
 'scheduler/dequeued': 35,
 'scheduler/dequeued/memory': 35,
 'scheduler/enqueued': 35,
 'scheduler/enqueued/memory': 35,
 'start_time': datetime.datetime(2019, 4, 13, 11, 5, 18, 861139)}
2019-04-13 11:05:23 [scrapy.core.engine] INFO: Spider closed (finished)

Может кто-нибудь, пожалуйста, помогите мне?

...