Использование глобальной (scope) переменной mongoDb при установке с несколькими осколками - PullRequest
1 голос
/ 14 марта 2012

Я разрабатываю систему, которая должна обрабатывать миллионы документов и составлять отчеты по ним различными способами. Задача mongoDb map \ lower - это то, что я пытаюсь реализовать (в настоящее время я изучаю это). Самая базовая структура документа:

db.test.insert(
{
        "_id" : ObjectId("4f6063601caf46303c36eb27"),
        "verbId" : NumberLong(1506281),
        "sentences" : [
                {
                        "sId" : NumberLong(2446630),
                        "sentiment" : 2,
                        "categories" : [
                                NumberLong(3257),
                                NumberLong(3221),
                                NumberLong(3291)
                        ]
                },
                {
                        "sId" : NumberLong(2446631),
                        "sentiment" : 0,
                        "categories" : [
                                NumberLong(2785),
                                NumberLong(2762),
                                NumberLong(2928),
                                NumberLong(2952)
                        ]
                },
                {
                        "sId" : NumberLong(2446632),
                        "sentiment" : 0,
                        "categories" : [
                                NumberLong(-2393)
                        ]
                },
                {
                        "sId" : NumberLong(2446633),
                        "sentiment" : 0,
                        "categories" : [
                                NumberLong(-2393)
                        ]
                }
        ]
})

Так что каждый документ содержит предложения, которые могут принадлежать к разным категориям. Отчет, который я пытаюсь получить, - это количество предложений в категории (с процентами дословных выражений).

Я выполняю следующие задания по уменьшению карты с помощью метода finalize для подсчета различных средних значений.

var map = function() {
        var docCategories = new Array();
        var catValues = new Array();
        for (var i = 0; i < this.sentences.length; i++) { //iterate over sentences.
            sentence = this.sentences[i];
            for (var j = 0; j < sentence.categories.length; j++) {//iterate over categories
                catId= sentence.categories[j].toNumber();
                if (docCategories.indexOf(catId) < 0) {
                    docCategories.push(catId);
                    catValues.push({sentiment : sentence.sentiment, sentenceCnt: 1});
                } else {
                    categoryIdx = docCategories.indexOf(catId);
                    catValue = catValues[categoryIdx];
                    catValue.sentiment = catValue.sentiment + sentence.sentiment;
                    catValue.sentenceCnt = catValue.sentenceCnt + 1;
                }
            }

        }
        totalCount++; //here we do try to count distinctCases see scope.
        for (var i = 0; i < docCategories.length; i ++) {
            emit(docCategories[i], {count: 1, sentenceCnt: catValues[i].sentenceCnt, sentiment: catValues[i].sentiment, totalCnt : totalCount});
        }

    };

var reduce = function(key, values) {
    var res = {count : 0, sentenceCnt : 0, sentiment : 0};
    for ( var i = 0; i < values.length; i ++ ) {
        res.count += values[i].count;
        res.sentenceCnt += values[i].sentenceCnt;
        res.sentiment += values[i].sentiment;
    }

    return res;
};

var finalize = function(category, values) {
    values.sentimentAvg = values.sentiment / values.sentenceCnt; 
    values.percentOfVerbatim = values.count / totalCount //scope variable (global)
    return values;
};


var res = db.runCommand( { mapreduce:'test',
                  map:map,
                  reduce:reduce,
                  out: 'cat_volume',
                  finalize:finalize,
                  scope:{totalCount : 0},
                });

Самая интересная часть здесь - это то, что я использую totalCount - для подсчета количества словесных изданий, которые я излучаю. totalCount - переменная области видимости (глобальная). Все прошло хорошо при установке One mongoDb, но при переходе к осколкам я получаю «Бесконечность» для процентOfVerbatim .

На самом деле в этом случае totalCount будет просто db.test.count () (количество документов), но в будущем я собираюсь добавить другие условия для документов, которые будут сосчитать. Выполнение любого другого запроса очень нежелательно, так как база данных очень тяжелая.

Существуют ли другие подходы к использованию глобальных (scope) переменных в установке mongodb с несколькими экземплярами? Или я должен использовать что-то еще?

Ответы [ 2 ]

2 голосов
/ 15 марта 2012

Переменные области видимости не распределены между шардами. Вы можете рассматривать это как глобальную константу. Обновления значения не будут видны для сопоставления или сокращения функций, работающих на разных шардах.

0 голосов
/ 16 марта 2012

Наконец-то я нашел способ подсчета количества документов, которые я посылаю.Единственный способ, который работал для меня, - это генерирование documentId и помещение идентификаторов в массив при уменьшении.На стороне клиента (я пишу Java-программу) я должен учитывать только все идентификаторы.Таким образом, при выполнении map я выдаю

emit(docCategories[i], {verbIds : [this.verbId.toNumber()], count: 1, sentenceCnt: catValues[i].sentenceCnt, sentiment: catValues[i].sentiment, totalCnt : totalCount});

Функция Reduce выглядит следующим образом:

var reduce = function(key, values) {
    var res = {verbIds : [], count : 0, sentenceCnt : 0, sentiment : 0};
    for ( var i = 0; i < values.length; i ++ ) {
//      res.verbIds = res.verbIds.concat(values[i].verbIds); //works slow
        for ( var j = 0; j < values[i].verbIds.length; j ++ ) {
            res.verbIds.push(values[i].verbIds[j]);
        }
        res.count += values[i].count;
        res.sentenceCnt += values[i].sentenceCnt;
        res.sentiment += values[i].sentiment;
    }

    return res;
};

Программа на стороне Java просто считает разные идентификаторы по всем результатам.

На самом деле для 1.1M выполнение документов значительно замедляется

...