Я извлекаю строки данных из DynamoDB и запускаю их через вычисления панд.Очень часто динамо-строки возвращаются на нескольких страницах с помощью нумерации страниц:
paginator = dynamoDbClient.get_paginator('query')
response_iterator = paginator.paginate(...)
for response in response_iterator:
dataFrame = pd.DataFrame(json.loads(response['Items']))
Я хотел бы объединить все страницы данных в одном кадре данных, прежде чем делать какие-либо вычисления, полагая, что я буду делать что-то вродеthis:
completeDataFrame = pd.DataFrame()
for response in response_iterator:
dataFrame = pd.DataFrame(json.loads(response['Items']))
frame=[completeDataFrame, dataFrame]
completeDataFrame = pd.concat(frames)
Однако в документации сказано:
Примечание Стоит отметить, что concat () (и, следовательно, append ()) создаетполная копия данных, и постоянное повторное использование этой функции может привести к значительному снижению производительности.Если вам нужно использовать операцию над несколькими наборами данных, используйте понимание списка.
frames = [process_your_file (f) для f в файлах]
result = pd.concat (frames)
Как сделать так, чтобы мои вызовы concat не приводили к полным копиям данных?Большое спасибо.