Данные не совпадают при извлечении из Google Analytics API (python) - PullRequest
0 голосов
/ 04 января 2019

Я делаю скрипт для извлечения данных из Google Analytics API v4. Скрипт работает отлично. Однако при проверке данных путем сравнения GA с моими извлеченными данными я вижу некоторые несоответствия . Не слишком отличается, но я не понимаю, почему не то же самое.

Просто упомяну, что я использую динамические сегменты в моем сценарии, которые имеют те же условия, что и сегмент, который есть в моем представлении GA. Сегмент только фильтрует спам-трафик, включая только трафик, продолжительность сеанса которого> 1 сек.

Вот структура, которую я тяну:

body={
"reportRequests":[
{
"viewId": view_id,
"dimensions":[{"name": "ga:date"},{"name": "ga:sourceMedium"},{"name": "ga:campaign"},{"name": "ga:adContent"},{"name": "ga:channelGrouping"},{"name": "ga:segment"}],
"dateRanges":[
{
"startDate":"2018-12-16",
"endDate":"2018-12-20"
}],
"metrics":[{"expression":"ga:sessions","alias":"sessions"}],
"segments":[
{
"dynamicSegment":
{
    "name": "sessions_no_spam",
    "userSegment":
    {
    "segmentFilters":[
    {
        "simpleSegment":
        {
        "orFiltersForSegment":
        {
            "segmentFilterClauses": [
            {
            "metricFilter":
            {
                "metricName":"ga:sessionDuration",
                "operator":"GREATER_THAN",
                "comparisonValue":"1"
            }
            }]
        }
        }
    }]
    }
}
}]
}]
}).execute()

Не уверен, что ответ на мой вопрос будет скорее концептуальным, нежели техническим, но на всякий случай я также включил функцию, где я собираю результаты в моей базе данных:

def print_results(no_spam_traffic):
    connection = psycopg2.connect(database = 'web_insights_data', user = 'XXXX', password = 'XXXXX', host = 'XXX', port = 'XXXXX')
    cursor = connection.cursor()
    for report in no_spam_traffic.get('reports', []):
        for row in report.get('data', {}).get('rows', []):
            gadate = row['dimensions'][0]
            gadate = gadate[0:4]+'/'+gadate[4:6]+'/'+gadate[6:8]
            gasourcemedium = row['dimensions'][1]
            gacampaign = row['dimensions'][2]
            gaadcontent = row['dimensions'][3]
            gachannel = row['dimensions'][4]
            gasessions = row['metrics'][0]['values'][0]

            cursor.execute("SELECT * from GA_no_spam_traffic where gadate = %s AND sourcemedium = %s AND campaign = %s AND adcontent = %s", (str(gadate),str(gasourcemedium),str(gacampaign),str(gaadcontent)))
            if len(cursor.fetchall())>0:        #update old entries
                cursor.execute("UPDATE GA_no_spam_traffic set sessions = %s where gadate = %s AND sourcemedium = %s AND campaign = %s AND adcontent = %s", (str(gasessions),str(gadate),str(gasourcemedium),str(gacampaign),str(gaadcontent)))
                connection.commit()
            else:                               #Insert new rows
                cursor.execute("INSERT INTO GA_no_spam_traffic (gadate,sourcemedium,campaign,adcontent,channel,sessions) VALUES (%s,%s,%s,%s,%s,%s)", (gadate,gasourcemedium,gacampaign,gaadcontent,gachannel,gasessions))
                connection.commit()

    connection.close()

Есть идеи, в чем может быть проблема? Спасибо !!

1 Ответ

0 голосов
/ 07 января 2019

Мне удалось улучшить это, хотя это не точно. Но это приемлемое несоответствие. У меня была проблема с размером страницы, поэтому я увеличил параметр размера страницы.

Вот ссылка на раздел нумерации страниц из справочника Google: https://developers.google.com/analytics/devguides/reporting/core/v4/migration#pagination Спасибо

...