Что не так с моим Hive-UDF? Как установить номер карты улья? - PullRequest
0 голосов
/ 08 сентября 2011

Я использую Hadoop-Hive для анализа журнала apache и функций доступа к статистике. Я пишу UDF с именем GetCity, чтобы преобразовать remote_ip в название города, но когда я запускаю «выбрать GetCity (remote_ip) из log_pre;», он работает очень медленно и даже не удается, если данные слишком велики, например, более 1000 элементов. Я попытался установить mapred.reduce.tasks = 10, но трекер заданий показал, что общее число карт равно 1, но все равно. Как я могу установить больше карт при выборе?

Спасибо!

1 Ответ

0 голосов
/ 11 сентября 2011

При выполнении такого запроса вызов «GetCity (remote_ip)» всегда происходит в маппере.На самом деле, я сомневаюсь, что здесь есть что-то, что происходит в редукторе, кроме, возможно, конкатенации файлов.Вы можете контролировать количество задач, которые используются в маппере из улья, вызывая:

SET mapred.map.tasks = 10;

Надеюсь, это поможет,

synctree

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...