Question

Я пытаюсь провести анализ точности географического таргетинга на ip и имею два очень больших набора данных для работы на основе преобразования ip-адресов в ip целые числа или ip_number (s).

Преобразование работает следующим образом

ip_number = 16777216*w + 65536*x + 256*y + z   (1)

где

IP Address = w.x.y.z

Я построил свои две таблицы в Hadoop с Hive: Таблица 1 состоит из 2,9 мм строк и организована в географические местоположения, определяемые диапазонами ip_number (s). Считанные поля:

start_ip, end_ip, zipcode, city

, где start_ip - это минимальный ip_number, а end_ip - это максимальный ip_number для данного почтового индекса.

Эта таблица является индексом сегментов или диапазонов ip_num и соответствующих местоположений, для которых мне нужно проанализировать использование из другой таблицы с уникальными номерами ip_num.

Моя вторая таблица или набор данных содержит данные о взаимодействии и использовании для каждого отдельного IP-адреса с нашего сервера. Таким образом, у меня есть 25MM уникальных ip_number (s) с данными об использовании, которые мне нужно суммировать и группировать по сегментам в моей первой таблице. Считанные поля:

ip_number, ip_address, usage

Нет общего поля между двумя наборами данных для стандартного объединения в кусте, поэтому я застрял.

Я пытался использовать полные внешние объединения, но считаю, что результирующий набор данных слишком велик для нашего кластера Hadoop. Время ожидания сценария во время отображения / уменьшения.

Есть ли способ с помощью Hive выбрать строки из моей первой таблицы и суммировать поле из моей второй таблицы для активности из ip_numbers, которые соответствуют каждому сегменту или диапазону в первой таблице? Если нет, то есть ли способ с помощью Python или R манипулировать таблицами Hadoop для достижения этой цели?

Я хочу организовать результирующий набор данных:

table_1.ip_start, table_1.ip_end, table_1.zipcode, sum(table_2.usage)

Любая помощь очень ценится!

John Meagher · Answer 1 · 20 февраля 2012

Для этого есть 2 подхода.

Создайте UDF, который будет загружать данные гео-ip с помощью Distributed Cache и используйте его для обогащения таблицы использования
Создайте пользовательскую функцию, которая расширит гео-IP до полных 32-битных IP-адресов, чтобы вы могли выполнить стандартное объединение

Ни один из них не так уж велик. Вариант 1 будет работать намного быстрее, поскольку он сможет выводить ваши результаты с одним проходом карты по таблице использования. Недостатком этого является требование к памяти для загрузки 2,9-миллиметровых строк данных гео-ip.

Управляйте двумя наборами данных с помощью суммы (если ...) или условного выражения, которые не имеют общего идентификатора с Hive Hadoop Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Управляйте двумя наборами данных с помощью суммы (если ...) или условного выражения, которые не имеют общего идентификатора с Hive Hadoop Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов