Проблема с Google геокодированием - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь запустить скрипт для преобразования адресов (около 1000) в географические координаты, но по какой-то причине я получаю ответ OVER_QUERY_LIMIT после нажатия на 50-й адрес в моем списке ввода.

Чтобы избежать ограничения запроса, я уже добавил команду time.sleep в цикл, но по какой-то причине он говорит, что я снова превысил предел.

Кто-нибудь может помочь? (К вашему сведению, я запускаю его на своем ноутбуке)

import pandas as pd
import requests
import logging
import time
logger = logging.getLogger("root")
logger.setLevel(logging.DEBUG)
ch = logging.StreamHandler()
ch.setLevel(logging.DEBUG)
logger.addHandler(ch)

API_KEY = my_key #using my API key
BACKOFF_TIME = 5
output_filename = 'result.csv'
input_filename = 'input.csv'
address_column_name = "Address"
RETURN_FULL_RESULTS = False

data = pd.read_csv(input_filename, encoding='utf8')
if address_column_name not in data.columns:
raise ValueError("Missing Address column in input data")
addresses = data[address_column_name].tolist()

def get_google_results(address, api_key=my_key, return_full_response=False):
geocode_url = "https://maps.googleapis.com/maps/api/geocode/json?address={}".format(address)
if api_key is not None:
    geocode_url = geocode_url + "&key={}".format(api_key)

results = requests.get(geocode_url)
results = results.json()

if len(results['results']) == 0:
    output = {
        "formatted_address" : None,
        "latitude": None,
        "longitude": None,
        "accuracy": None,
        "google_place_id": None,
        "type": None,
        "postcode": None
    }
else:
    answer = results['results'][0]
    output = {
        "formatted_address" : answer.get('formatted_address'),
        "latitude": answer.get('geometry').get('location').get('lat'),
        "longitude": answer.get('geometry').get('location').get('lng'),
        "accuracy": answer.get('geometry').get('location_type'),
        "google_place_id": answer.get("place_id"),
        "type": ",".join(answer.get('types')),
        "postcode": ",".join([x['long_name'] for x in answer.get('address_components')
                              if 'postal_code' in x.get('types')])
    }

output['input_string'] = address
output['number_of_results'] = len(results['results'])
output['status'] = results.get('status')
if return_full_response is True:
    output['response'] = results

return output

results = []
for address in addresses:
  geocoded = False
  while geocoded is not True:
      try:
        geocode_result = get_google_results(address, API_KEY, 
return_full_response=RETURN_FULL_RESULTS)
        time.sleep(5)
    except Exception as e:
        logger.exception(e)
        logger.error("Major error with {}".format(address))
        logger.error("Skipping!")
        geocoded = True
    if geocode_result['status'] == 'OVER_QUERY_LIMIT':
        logger.info("Hit Query Limit! Backing off for a bit.")
        time.sleep(BACKOFF_TIME * 60) # sleep
        geocoded = False
    else:
        if geocode_result['status'] != 'OK':
            logger.warning("Error geocoding {}: {}".format(address, geocode_result['status']))
        logger.debug("Geocoded: {}: {}".format(address, geocode_result['status']))
        results.append(geocode_result)
        geocoded = True

if len(results) % 100 == 0:
    logger.info("Completed {} of {} address".format(len(results), len(addresses)))

if len(results) % 50 == 0:
    pd.DataFrame(results).to_csv("{}_bak".format(output_filename))

logger.info("Finished geocoding all addresses")
pd.DataFrame(results).to_csv(output_filename, encoding='utf8')

1 Ответ

0 голосов
/ 07 ноября 2018

API геокодирования имеет ограничение по количеству запросов в секунду (QPS). Вы не можете отправить более 50 QPS.

Этот лимит задокументирован на

https://developers.google.com/maps/documentation/geocoding/usage-and-billing#other-usage-limits

Хотя вы больше не ограничены максимальным количеством запросов в день (QPD), для API геокодирования все еще действуют следующие ограничения использования:

  • 50 запросов в секунду (QPS), рассчитывается как сумма запросов на стороне клиента и на стороне сервера.

Чтобы решить вашу проблему, я бы предложил использовать клиентскую библиотеку Python для веб-служб API Карт Google:

https://github.com/googlemaps/google-maps-services-python

Эта библиотека внутренне контролирует QPS, поэтому ваши запросы будут правильно поставлены в очередь.

Надеюсь, это поможет!

...