FlickrAPI возвращает только неполное количество результатов - PullRequest
0 голосов
/ 14 июля 2020

Моя цель - извлечь геоданные (значения широты и долготы), просмотры, идентификаторы фотографий, URL-адреса и дату публикации из базы данных Flickr в пределах географических c границ города Кельн, Германия. Затем данные записываются в файл csv. Общее количество результатов с использованием только tags='Köln' составляет около 110 000. Я хочу извлечь как минимум 5-di git количество точек данных из этого. Для этого я установил три разделителя: тег, максимальную дату загрузки и минимальную дату загрузки.

Что уже работает: данные успешно записаны в csv.

Что не работает пока работают: когда я возвращаю результаты поиска, используя xml.etree.ElementTree.dump(), я вижу, что для соответствующих параметров поиска найдено около 3700 результатов. Насколько мне известно, это число находится в пределах 4000 результатов на запрос, установленного Flickr. Однако в файл csv записывается только от 700 до 1000 точек данных. Число никогда не бывает одинаковым и меняется при каждом исполнении, что странно, потому что я четко определил временные рамки. Кроме того, несмотря на добавление таймера между вызовами с использованием time.sleep(1), сервер все равно время от времени выгоняет меня (код ошибки 500). После долгой борьбы с едва задокументированными ограничениями я действительно не могу сказать, почему мой код все еще не работает должным образом.

Я использовал следующий код:

import flickrapi
import os
import datetime
import time

## Only needed to explore the xml tree
# import xml 

## API key and secret provided by Flickr
api_key = 'api key'
api_secret = 'api secret'

## Approximate geographic coordinates of the administrational boundaries of the city of Cologne
boundaries = '6.8064182,50.8300729,7.1528453,51.0837915'

## Counter for the ID column required by GIS software
id_count = 1

## Creation of an editable csv file and its top row
csv = open('flickr_data.csv', mode='a')
if(os.stat('flickr_data.csv').st_size == 0):
    csv.write('ID,Photo_ID,Lat,Lon,Views,Taken_Unix,Taken,URL \n')

## Authentication of the Flickr API
flickr = flickrapi.FlickrAPI(api_key, api_secret)

## Page counter
page_number = 1

## Only needed to explore the xml tree
# test_list = flickr.photos_search(max_upload_date = '2020-07-09 23:59:59',min_upload_date = '2020-01-15 0:00:00',tags = 'Köln',bbox = boundaries,has_geo = '1',page = 1,extras = 'views',per_page = '250')
# xml.etree.ElementTree.dump(test_list)

## While loop keeps running until page 16 is reached. The total number of pages for the wanted search query is 452.
## However, Flickr only returns a number of photos equivalent to 16 pages of 250 results.
## At this point, the code is reiterated until the maximum number of pages is reached.
while page_number < 17:
    
    ## Flickr search for the geographic boundaries of Cologne, Germany.
    photo_list = flickr.photos_search(tags = 'Köln',
                                      max_upload_date = '2020-07-09 23:59:59',
                                      min_upload_date = '2020-01-15 00:00:00',
                                      bbox = boundaries,
                                      has_geo = '1',
                                      page = page_number,
                                      extras = 'views',
                                      per_page = '250') ## maximum allowed photos per page for bbox-delimited requests
    
    ## For loop keeps running as long as there are photos on a page
    for photo in photo_list[0]:
        ## extraction of latitude and longitude data from the search results
        geodata = flickr.photos_geo_getLocation(photo_id = photo.attrib['id'])
        lat = geodata[0][0].attrib['latitude']
        lon = geodata[0][0].attrib['longitude']
        
        ## extraction of views from the search results
        views = photo.get('views')

        ## extraction and conversion of upload dates
        photo_info = flickr.photos.getInfo(photo_id = photo.attrib['id'])
        date_unix = int(photo_info[0][4].attrib['posted'])
        date = datetime.datetime.utcfromtimestamp(date_unix).strftime('%Y-%m-%d %H:%M:%S')
        url = 'https://www.flickr.com/photos/' + photo.attrib['owner'] + '/' + photo.attrib['id']

        
        
        ## the csv is filled with the acquired information
        csv.write('%s,%s,%s,%s,%s,%s,%s,%s \n' % (id_count,
                                                  photo.attrib['id'],
                                                  lat,
                                                  lon,
                                                  views,
                                                  date_unix,
                                                  date,
                                                  url))
        id_count += 1
        ## 1 second wait time between calls to prevent error code 500
        time.sleep(1)
    ## Turns the page
    page_number += page_number

## Total number of photos searched
print(sum(1 for line in open(flickr_data.csv))-1)

csv.close()

Ниже приведен отрывок из xml, который возвращается flickr.photos_search

<rsp stat="ok">
<photos page="1" pages="16" perpage="250" total="3755">
    <photo id="50094525552" owner="98355876@N00" secret="6d66d421af" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="250" />
    <photo id="50093709173" owner="98355876@N00" secret="90c31cac1d" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="260" />
    <photo id="50093706783" owner="98355876@N00" secret="9521b8ba7d" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="224" />
    <photo id="50093641658" owner="82692690@N02" secret="e26afb1e79" server="65535" farm="66" title="Cabecera. Catedral gótica de Colonia. JX3." ispublic="1" isfriend="0" isfamily="0" views="201" />
    <photo id="50090280721" owner="98355876@N00" secret="cc0e2d7b8b" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="295" />
    <photo id="50090278631" owner="98355876@N00" secret="8113aaa628" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="280" />
    <photo id="50090277186" owner="98355876@N00" secret="73753c811d" server="65535" farm="66" title="-" ispublic="1" isfriend="0" isfamily="0" views="320" />
    <photo id="50090150901" owner="136678496@N04" secret="6de14ca572" server="65535" farm="66" title="Good Morning" ispublic="1" isfriend="0" isfamily="0" views="104" />
    <photo id="50089819277" owner="7283893@N05" secret="43e5290b07" server="65535" farm="66" title="Der Chef / The Boss" ispublic="1" isfriend="0" isfamily="0" views="421" />

Ниже приводится результат выполнения сценария со счетчиком идентификаторов, напечатанным в конце каждого для l oop и номер страницы, печатаемый через каждые l oop:

1
2
3
4
5
6
7
8
9

(...)

245
246
247
248
249
250
-------- PAGE 2 --------
251
252
253
254
255
256
257

(...)

493
494
495
496
497
498
499
500
-------- PAGE 4 --------
501
502
503
504
505
506
507

(...)

743
744
745
746
747
748
749
750
-------- PAGE 8 --------
751
752
753
754
755
756
757
758
759

(...)

990
991
992
993
994
995
996
997
998
999
1000
-------- PAGE 16 --------
1001
1002
1003
1004
1005
-------- PAGE 32 --------

1 Ответ

0 голосов
/ 15 июля 2020

Как вы обнаружили, pagenumber удваивает пропуск большей части результатов API из-за вашего итератора в конце while l oop:

page_number += page_number

Чтобы исправить, просто отрегулируйте увеличение на 1:

page_number += 1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...