Как всегда, знание структуры базовых данных транзакций - атомарных компонентов, используемых для построения DW, - это первый и самый большой шаг.
По сути, есть два варианта, основанные на том, как вы извлекаете данные. Одним из них, уже упоминавшимся в предыдущем ответе на этот вопрос, является доступ к вашим данным GA через API GA. Это довольно близко к форме, в которой данные появляются в отчете GA, а не к транзакционным данным. Преимущество использования этого в качестве источника данных в том, что ваш «ETL» очень прост, просто синтаксический анализ данных из контейнера XML - это почти все, что нужно.
Второй вариант предполагает захват данных гораздо ближе к источнику.
Ничего сложного, но несколько строк фона, возможно, здесь помогут.
Веб-панель GA GA создается
парсинг / фильтрация журнала транзакций GA
(контейнер
который содержит данные GA, которые
соответствует одному профилю в одном
Счет).
Каждая строка в этом журнале представляет
одна транзакция и доставляется
к серверу GA в виде
HTTP-запрос от клиента.
Прилагается к этому запросу (который
номинально для однопиксельного GIF )
единственная строка, которая содержит все
данные, возвращенные из этого
Вызов функции _TrackPageview плюс данные из клиентского DOM, файлы cookie GA
установить для этого клиента, а
содержимое расположения браузера
бар (http://www. .. .).
Хотя этот запрос от
клиент, он вызывается GA
скрипт (который находится на клиенте)
сразу после исполнения первичного ГА
функция сбора данных
(_TrackPageView).
Таким образом, работа непосредственно с данными транзакций, возможно, является наиболее естественным способом построения хранилища данных; Другое преимущество состоит в том, что вы избегаете дополнительных издержек промежуточного API).
Отдельные строки журнала GA обычно недоступны для пользователей GA. Тем не менее, их просто получить. Этих двух шагов должно хватить:
изменить код отслеживания GA на каждой странице вашего сайта , чтобы он
отправляет копию каждого запроса GIF
(одна строка в лог-файле GA) на ваш
собственный сервер, в частности,
перед вызовом
_trackPageview (), добавьте эту строку:
pageTracker._setLocalRemoteServerMode();
Далее, просто вставьте однопиксельный GIF
изображение в корне вашего документа и вызов
это "__utm.gif" .
Таким образом, теперь журнал активности вашего сервера будет содержать эти отдельные линии перехода, снова построенные из строки, добавленной к HTTP-запросу для пикселя отслеживания GA, а также из других данных в запросе (например, строки User Agent). Эта бывшая строка является просто объединением пар ключ-значение, каждый ключ начинается с букв «utm» (вероятно, для «отслеживания urching»). Не каждый параметр utm появляется в каждом запросе GIF, например, некоторые из них используются только для транзакций электронной торговли - это зависит от транзакции.
Вот фактический запрос GIF (идентификатор аккаунта был очищен, в противном случае он не поврежден):
http://www.google -analytics.com / __ utm.gif? Utmwv = 1 & utmn = 1669045322 & utmcs = UTF-8 & utmsr = 1280x800 & utmsc = 24-бит и utmul = EN-US & utmje = 1 & utmfl = 10,0% 20r45 & utmcn = 1 & utmdt = Позиция% 20Listings% 20% 7C% 20Linden% 20Lab & utmhn = lindenlab.hrmdirect.com & utmr = * * тысяча шестьдесят четыре
Как видите, эта строка состоит из набора пар ключ-значение, каждая из которых разделена знаком "&". Всего два тривиальных шага: (i) расщепление этой нити на амперсанде; и (ii) заменяя каждый параметр (ключ) gif короткой описательной фразой, чтобы это было намного легче читать:
gatc_version 1
GIF_req_unique_id 1669045322
language_encoding UTF-8
разрешение экрана 1280x800
screen_color_depth 24-бит
browser_language en-us
java_enabled 1
flash_version 10.0% 20r45
campaign_session_new 1
page_title Позиция% 20Listings% 20% 7C% 20Linden% 20 Lab
имя_хоста lindenlab.hrmdirect.com
referral_url http://lindenlab.com/employment
page_request /employment/openings.php?sort=da
account_string UA-XXXXXX-X
куки-файлы __utma% 3D87045125.1669045322.1274256051.1274256051.1274256051.1% 3B% 2B__utmb% 3D87045125% 3B% 2B__utmc% 3D87045125% 3B% 2B__utmz% 3D870mm.1% 3 870 451,15% 7742560,15% 2,75 255,15,12% (855) 12,15 % 3Dlindenlab.com% 7Cutmcct% 3D% 2Femployment% 7Cutmcmd% 3Dreferral% 3B% 2B
Файлы cookie также просты для анализа (см. Краткое описание Google здесь ): например,
__ utma - файл cookie с уникальным посетителем,
__ utmb, __utmc - файлы cookie сеанса, а
__ utmz - тип реферала.
Файлы cookie GA хранят большую часть данных, которые регистрируют каждое взаимодействие с пользователем (например, щелкнув ссылку для загрузки с тегом, ссылку на другую страницу на Сайте, последующее посещение на следующий день и т. Д.). Так, например, файл cookie __utma состоит из групп целых чисел, каждая группа которых отделена знаком «.»; последняя группа - это число посещений для этого пользователя (в данном случае «1»).