Странная карта уменьшает поведение в CouchDB.Rereduce? - PullRequest
4 голосов
/ 14 января 2011

У меня проблема mapreduce с couchdb (обе функции показаны ниже): когда я запускаю его с grouplevel = 2 (точный), я получаю точный вывод:

{"rows":[
 {"key":["2011-01-11","staff-1"],"value":{"total":895.72,"count":2,"services":6,"services_ignored":6,"services_liked":0,"services_disliked":0,"services_disliked_avg":0,"Revise":{"total":275.72,"count":1},"Review":{"total":620,"count":1}}},
 {"key":["2011-01-11","staff-2"],"value":{"total":8461.689999999999,"count":2,"services":41,"services_ignored":37,"services_liked":4,"services_disliked":0,"services_disliked_avg":0,"Revise":{"total":4432.4,"count":1},"Review":{"total":4029.29,"count":1}}},
 {"key":["2011-01-11","staff-3"],"value":{"total":2100.72,"count":1,"services":10,"services_ignored":4,"services_liked":3,"services_disliked":3,"services_disliked_avg":2.3333333333333335,"Revise":{"total":2100.72,"count":1}}},

Однако изменение на grouplevel = 1, так что значения для всех различных ключей персонала должны быть сгруппированы по дате, больше не дает точного вывода (обратите внимание, что сумма является точной, но все остальные ошибочны):

{"rows":[
  {"key":["2011-01-11"],"value":{"total":11458.130000000001,"count":2,"services":0,"services_ignored":0,"services_liked":0,"services_disliked":0,"services_disliked_avg":0,"None":{"total":11458.130000000001,"count":2}}},

Моя единственная теория - это как-то связано с редукцией, которую я еще не изучил. Должен ли я изучить этот вариант или я что-то здесь упускаю?

Это функция карты:

function(doc) {
if(doc.doc_type == 'Feedback') {
    emit([doc.date.split('T')[0], doc.staff_id], doc);
}
}

А это и есть Редукция:

function(keys, vals) {
// sum all key points by status: total, count, services (liked, rejected, ignored)
var ret = {
    'total':0,
    'count':0, 
    'services': 0,
    'services_ignored': 0,
    'services_liked': 0,
    'services_disliked': 0,
    'services_disliked_avg': 0,
};

var total_disliked_score = 0;

// handle status
function handle_status(doc) {
    if(!doc.status || doc.status == '' || doc.status == undefined) {
        status = 'None';
    } else if (doc.status == 'Declined') {
        status = 'Rejected';
    } else {
        status = doc.status;
    }
    if(!ret[status]) ret[status] = {'total':0, 'count':0};
    ret[status]['total'] += doc.total;  
    ret[status]['count'] += 1;
};

// handle likes / dislikes
function handle_services(services) {
    ret.services += services.length;
    for(var a in services) {
        if (services[a].user_likes == 10) {
            ret.services_liked += 1;
        } else if (services[a].user_likes >= 1) {
            ret.services_disliked += 1;
            total_disliked_score += services[a].user_likes;
            if (total_disliked_score >= ret.services_disliked) {
                ret.services_disliked_avg = total_disliked_score / ret.services_disliked;
            }
        } else {
            ret.services_ignored += 1;
        }
    }
}

// loop thru docs 
for(var i in vals) {
    // increment the total $
    ret.total += vals[i].total;
    ret.count += 1;

    // update totals and sums for the status of this route
    handle_status(vals[i]);

    // do the likes / dislikes stats
    if(vals[i].groups) {
        for(var ii in vals[i].groups) {
            if(vals[i].groups[ii].services) {
                handle_services(vals[i].groups[ii].services); 
            }
        }
    }

    // handle deleted services
    if(vals[i].hidden_services) {
        if (vals[i].hidden_services) {
            handle_services(vals[i].hidden_services);
        }
    }
}

return ret;
}

Ответы [ 2 ]

8 голосов
/ 14 января 2011

Это классическая ошибка. Имейте в виду, что сокращение CouchDB происходит в несколько этапов, и некоторые из этих шагов будут получать в качестве входных данных результат других шагов сокращения . Тем не менее, ваш код, похоже, предполагает, что vals[i] будет объектом формы { "groups": _ , "hidden_services": _ , _ }, представляющим один документ. Этот код завершится ошибкой, когда произойдет переоценка , потому что тогда vals[i] будет иметь форму { "count" : _ , "services" : _ , _ }, представляющую результат предыдущего шага сокращения.

Так, например, подсчитывая с помощью ret.count += 1, вы подсчитываете количество промежуточных результатов сокращения, а не количество документов.

Одним из решений является написание двух версий вашего кода сокращения, одна для обработки исходного сокращения, а другая для обработки шагов rereduce . Вы можете определить, является ли данный вызов первоначальным или повторно вызвать, просмотрев третий аргумент (false, если начальный, true, если rereduce).

Другое решение состоит в том, чтобы функция карты выдавала предварительно обработанное значение той же формы { "count" : _ , "services" : _ , _ }, которое возвращается функцией Reduce, и чтобы функция Reduce просто складывала элементы этих значений вместе.

2 голосов
/ 14 января 2011

Для справки, добавьте следующий код ниже var ret = {...} для обработки повторных работ!

function rereduce_status(row, ret, stat) 
{
    if(row[stat]) {
        if(!ret[stat]) ret[stat] = {'total':0, 'count':0};
        ret[stat]['total'] += row[stat].total;
        ret[stat]['count'] += row[stat].count;
    }   
    return ret;
}

if(rereduce) {
    for (var i in vals) {
        ret.total += vals[i].total;
        ret.count += vals[i].count;
        ret.services += vals[i].services;
        ret.services_ignored += vals[i].services_ignored;
        ret.services_liked += vals[i].services_liked;
        ret.services_disliked += vals[i].services_disliked;
        ret.services_disliked_score += vals[i].services_disliked_score;
        if (ret.services_disliked_score >= ret.services_disliked) {
            ret.services_disliked_avg = ret.services_disliked_score / ret.services_disliked;
        }
        ret = rereduce_status(vals[i], ret, 'None');
        ret = rereduce_status(vals[i], ret, 'Review');
        ret = rereduce_status(vals[i], ret, 'Revise');
        ret = rereduce_status(vals[i], ret, 'Rejected');
        ret = rereduce_status(vals[i], ret, 'Booked');
    }

    return ret;
}
...