Question

В моем случае я должен прочитать 1 миллион ~ 2 миллиона json результатов эластичности c путем прокрутки. Однако построение кадра данных pandas на основе результата (100 тысяч записей, около 10 секунд) довольно медленно. перечислите мой код ниже:

while (scroll_size > 0):
    frame = pd.DataFrame.from_dict([document['_source'] for document in page["hits"]["hits"]])
    frame['L7P'] = frame['L7P'].astype('category')
    appended_data.append(frame)
    page = es.scroll(scroll_id = sid, scroll = '1m', request_timeout = 30)
    # Update the scroll ID
    sid = page['_scroll_id']
    # Get the number of results that we returned in the last scroll
    scroll_size = len(page['hits']['hits'])

Igor Rivin · Answer 1 · 16 июня 2020

Pandas не совсем скоростной демон для больших наборов данных. Если вы хотите что-то намного быстрее, используйте Datatable.

как построить pandas фрейм данных быстрее из результата прокрутки elasti c?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как построить pandas фрейм данных быстрее из результата прокрутки elasti c?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы