В моем случае я должен прочитать 1 миллион ~ 2 миллиона json результатов эластичности c путем прокрутки. Однако построение кадра данных pandas на основе результата (100 тысяч записей, около 10 секунд) довольно медленно. перечислите мой код ниже:
while (scroll_size > 0):
frame = pd.DataFrame.from_dict([document['_source'] for document in page["hits"]["hits"]])
frame['L7P'] = frame['L7P'].astype('category')
appended_data.append(frame)
page = es.scroll(scroll_id = sid, scroll = '1m', request_timeout = 30)
# Update the scroll ID
sid = page['_scroll_id']
# Get the number of results that we returned in the last scroll
scroll_size = len(page['hits']['hits'])