пейджер python-couchdb достигает предела глубины рекурсии - PullRequest
0 голосов
/ 30 сентября 2010

Я создаю пейджер, который возвращает документы из функции карты Apache CouchDB из python-couchdb . Это выражение генератора работает хорошо, пока не достигнет максимальной глубины рекурсии. Как можно улучшить переход к итерации, а не к рекурсии?

def page(db, view_name, limit, include_docs=True, **opts):
    """
    `page` goes returns all documents of CouchDB map functions. It accepts
    all options that `couchdb.Database.view` does, however `include_docs` 
    should be omitted, because this will interfere with things.

    >>> import couchdb
    >>> db = couchdb.Server()['database']
    >>> for doc in page(db, '_all_docs', 100):
    >>>    doc
    #etc etc
    >>> del db['database']

    Notes on implementation:
      - `last_doc` is assigned on every loop, because there doesn't seem to
        be an easy way to know if something is the last item in the iteration.
    """

    last_doc = None
    for row in db.view(view_name,
                     limit=limit+1,
                     include_docs=include_docs,
                     **opts):
        last_doc = row.key, row.id
        yield row.doc
    if last_doc:
        for doc in page(db, view_name, limit,
               inc_docs=inc_docs, 
               startkey=last_doc[0], 
               startkey_docid=last_doc[1]):
          yield doc

Ответы [ 3 ]

0 голосов
/ 30 сентября 2010

Это альтернативный подход, который я тестировал (вручную) в базе данных с> 800 тыс. Документов.Кажется, работает.

 def page2(db, view_name, limit, inc_docs=True, **opts):
     def get_batch(db=db, view_name=view_name, limit=limit, inc_docs=inc_docs, **opts):
         for row in db.view(view_name, limit=limit+1, include_docs=inc_docs, **opts):
             yield row
     last_doc = None
     total_rows = db.view(view_name, limit=1).total_rows
     batches = (total_rows / limit) + 1
     for i in xrange(batches):
         if not last_doc:
             for row in get_batch():
                 last_doc = row.key, row.id
                 yield row.doc or row # if include_docs is False, 
                                      # row.doc will be None
         else:
             for row in get_batch(startkey=last_doc[0], 
                             startkey_docid=last_doc[1]):
                 last_doc = row.key, row.id
                 yield row.doc or row
0 голосов
/ 30 сентября 2010

Я не использую CouchDB, поэтому у меня возникли небольшие проблемы с пониманием примера кода. Вот урезанная версия, которая, я считаю, работает так, как вы хотите:

all_docs = range(0, 100)

def view(limit, offset):
    print "view: returning", limit, "rows starting at", offset
    return all_docs[offset:offset+limit]

def generate_by_pages(page_size):
    offset = 0
    while True:
        rowcount = 0
        for row in generate_page(page_size, offset):
            rowcount += 1
            yield row
        if rowcount == 0:
            break
        else: 
            offset += rowcount

def generate_page(page_size, offset):
    for row in view(page_size, offset):
        yield row

for r in generate_by_pages(10):
    print r

Ключевым моментом является замена рекурсии на итерацию. Есть много способов сделать это (мне нравится прыжки на батуте в Python), но вышеизложенное просто.

0 голосов
/ 30 сентября 2010

Вот кое-что, с чего можно начать.Вы не указали, что *opts может быть;если вам нужны только startkey и startkey_docid для запуска рекурсии, а не некоторые другие поля, тогда вы можете избавиться от дополнительной функции.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...