Как получить количество найденных URL из icrawler без скачивания? - PullRequest
0 голосов
/ 07 ноября 2018

Я использую icrawler с python 3.5 для загрузки изображений с Flickr, Bing или Google. Теперь я хотел бы сравнить количество найденных URL-адресов изображений без загрузки изображений.

Если я правильно понимаю Документацию icrawler, то метод сканирования запускает Feeder, который помещает все найденные URL в очередь. Поэтому было бы неплохо иметь функцию, которая получает количество URL в очереди.

Если для пакета icrawler нет функции, было бы неплохо получить некоторые предложения для других пакетов crawler, которые имеют эту функцию. Я предпочитаю изображения от Flickr и Bing, потому что они поддерживают лицензию CreativeCommons.

Я использую icrawler следующим образом:

from icrawler.builtin import FlickrImageCrawler

flickr_crawler = FlickrImageCrawler(API_KEY, 
                                    storage={'backend': 'FileSystem', 'root_dir': cur_directory}
                                    )

flickr_crawler.crawl(max_num=10,
                     tags=keyword,
                     tag_mode = 'all',
                     sort = 'relevance',
                     license = '1,2,3,4,5'
                     )

С наилучшими пожеланиями

Ответы [ 2 ]

0 голосов
/ 07 ноября 2018

должно быть

flicker_crawler.feeder.in_queue.qsize()

но я не уверен, что это именно то, что вы хотите (это размер входной очереди фидера)

0 голосов
/ 07 ноября 2018

Возможно, я неправильно понял, но вы можете просто использовать len ()?

len(task_queue)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...