Итеративный ленивый выбор Python 3 - PullRequest
0 голосов
/ 02 января 2019

есть стандартный метод, который может лениво извлекать следующий кусок данных и выдавать его по элементам

В настоящее время я извлекаю все куски и связываю их с помощью itertools

def list_blobs(container_name:str, prefix:str):    
    chunks = []
    next_marker=None
    while True:
        blobs = blob_service.list_blobs(container_name, prefix=prefix, num_results=100, marker=next_marker)
        next_marker = blobs.next_marker
        chunks.append(blobs)
        if not next_marker:
            break

    return itertools.chain.from_iterable(chunks)

что такое "ленивая" версия средства извлечения list_blobs?

Ответы [ 3 ]

0 голосов
/ 02 января 2019

Замените chunks.append(blobs) на yield from blobs и полностью избавьтесь от return и chunks list:

def generate_blobs(container_name:str, prefix:str):
    next_marker = None
    while True:
        blobs = blob_service.list_blobs(container_name, prefix=prefix, num_results=100, marker=next_marker)
        next_marker = blobs.next_marker
        yield from blobs
        if not next_marker:
            break

Преобразует функцию в функцию генератора, которая выдает один элемент за раз.

0 голосов
/ 02 января 2019

@ ShadowRanger, @ Kasrâmvd большое спасибо

@ timgeb, полный код отложенного чтения через Azure BlobStorage

from azure.storage.blob import BlockBlobService
from azure.storage.blob import Blob
from typing import Iterable, Tuple

def blob_iterator(account:str, account_key:str, bucket:str, prefix:str)-> Iterable[Tuple[str, str]]:
    blob_service = BlockBlobService(account_name=account, account_key=account_key) 

    def list_blobs(bucket:str, prefix:str)->Blob:
        next_marker = None
        while True:
            blobs = blob_service.list_blobs(bucket, prefix=prefix, num_results=100, marker=next_marker)
            yield from blobs
            next_marker = blobs.next_marker
            if not next_marker:
                break

    def get_text(bucket:str, name:str)->str:
        return blob_service.get_blob_to_text(bucket, name).content

    return ( (blob.name, get_text(bucket, blob.name)) for blob in list_blobs(bucket, prefix) )


it = blob_iterator('account', 'account_key', 'container_name', prefix='AA')
0 голосов
/ 02 января 2019

Вы можете просто использовать yield from:

def list_blobs(container_name:str, prefix:str):
    next_marker = True
    while next_marker:
        blobs = blob_service.list_blobs(container_name, prefix=prefix, num_results=100, marker=next_marker)
        next_marker = blobs.next_marker
        yield from blobs
...