Мне хотелось бы получить несколько советов о том, как обновить / вставить новые данные в уже существующую таблицу данных с помощью Python / Databricks:
# Inserting and updating already existing data
# Original data
import pandas as pd
source_data = {'Customer Number': ['1', '2', '3'],
'Colour': ['Red', 'Blue', 'Green'],
'Flow': ['Good', 'Bad', "Good"]
}
df1 = pd.DataFrame (source_data, columns = ['Customer Number','Colour', 'Flow'])
print(df1)
# New data
new_data = {'Customer Number': ['1', '4',],
'Colour': ['Blue', 'Blue'],
'Flow': ['Bad', 'Bad']
}
df2 = pd.DataFrame (new_data, columns = ['Customer Number','Colour', 'Flow'])
print(df2)
# What the updated table will look like
updated_data = {'Customer Number': ['1', '2', '3', '4',],
'Colour': ['Blue', 'Blue', 'Green', 'Blue',],
'Flow': ['Bad', 'Bad', "Good", 'Bad']
}
df3 = pd.DataFrame (updated_data, columns = ['Customer Number','Colour', 'Flow'])
print(df3)
Здесь вы можете видеть, что у исходных данных три клиента. Затем я получаю 'new_data', который содержит обновление данных клиента 1 и новые данные для клиента 4, которого еще не было в исходных данных. Затем, если вы посмотрите на «updated_data», вы увидите, как должны выглядеть окончательные данные. Здесь 'Данные клиента 1 обновлены , а данные клиента 4 * вставлены .
Кто-нибудь знает, с чего мне начать? Какой модуль я мог бы использовать?
Я не ожидаю, что кто-то решит это с точки зрения разработки, просто нужно подтолкнуть его в правильном направлении.
Редактировать: источник данных - .txt или CSV, вывод - JSON, но когда я загружаю данные в Cosmos DB, они автоматически конвертируются, так что не беспокойтесь об этом.
Спасибо