Question

Я извлекаю строки данных из DynamoDB и запускаю их через вычисления панд.Очень часто динамо-строки возвращаются на нескольких страницах с помощью нумерации страниц:

paginator = dynamoDbClient.get_paginator('query')
response_iterator = paginator.paginate(...)
for response in response_iterator:
    dataFrame = pd.DataFrame(json.loads(response['Items']))

Я хотел бы объединить все страницы данных в одном кадре данных, прежде чем делать какие-либо вычисления, полагая, что я буду делать что-то вродеthis:

completeDataFrame = pd.DataFrame()
for response in response_iterator:
    dataFrame = pd.DataFrame(json.loads(response['Items']))

    frame=[completeDataFrame, dataFrame]
    completeDataFrame = pd.concat(frames)

Однако в документации сказано:

Примечание Стоит отметить, что concat () (и, следовательно, append ()) создаетполная копия данных, и постоянное повторное использование этой функции может привести к значительному снижению производительности.Если вам нужно использовать операцию над несколькими наборами данных, используйте понимание списка.

frames = [process_your_file (f) для f в файлах]

result = pd.concat (frames)

Как сделать так, чтобы мои вызовы concat не приводили к полным копиям данных?Большое спасибо.

Объединение страниц разбиения на страницы DynamoDB в 1 кадр данных панды без полных копий данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Объединение страниц разбиения на страницы DynamoDB в 1 кадр данных панды без полных копий данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов