как построить pandas фрейм данных быстрее из результата прокрутки elasti c? - PullRequest
0 голосов
/ 16 июня 2020

В моем случае я должен прочитать 1 миллион ~ 2 миллиона json результатов эластичности c путем прокрутки. Однако построение кадра данных pandas на основе результата (100 тысяч записей, около 10 секунд) довольно медленно. перечислите мой код ниже:

while (scroll_size > 0):
    frame = pd.DataFrame.from_dict([document['_source'] for document in page["hits"]["hits"]])
    frame['L7P'] = frame['L7P'].astype('category')
    appended_data.append(frame)
    page = es.scroll(scroll_id = sid, scroll = '1m', request_timeout = 30)
    # Update the scroll ID
    sid = page['_scroll_id']
    # Get the number of results that we returned in the last scroll
    scroll_size = len(page['hits']['hits'])

1 Ответ

0 голосов
/ 16 июня 2020

Pandas не совсем скоростной демон для больших наборов данных. Если вы хотите что-то намного быстрее, используйте Datatable.

...