У меня есть два файла CSV, которые были отделены от исходного файла CSV, и строки были перемешаны. Я хотел бы объединить два разделенных файла в один, чтобы он соответствовал оригиналу, чтобы я мог выполнять вычисления. Дело в том, что когда я вычисляю сумму столбца sales_amount из оригинала, она не совпадает с суммой из столбца sales_amount двух объединенных файлов. Я предполагаю, что строки из объединенного файла CSV не соответствуют исходному, поэтому суммирование будет неправильным? Я думал, что это не имеет значения, используя функцию группировки Pandas.
Исходный CSV имеет столбцы:
- Pen_mode
- sale_date
- Pen_brand
- sales_amount
Разделенные файлы CSV содержат столбцы:
Первый файл:
Второй файл:
... с перетасованными строками.
Ниже я думал, что объединит два файла и создаст идеальное совпадение, но, поскольку строки перемешаны, я не могу вычислить правильная сумма продаж из исходного CSV.
df0 = pd.read_csv("sales_original.csv")
df1 = pd.read_csv("sales_split_1.csv")
df2 = pd.read_csv("sales_split_2.csv")
df2_join = df2[["pencil_brand", "sales_amount"]]
df3 = df1.join(df2_join)
Когда я ввожу команду
df0.groupby("pencil_model").sum()
df3.groupby("pencil_model").sum()
, я получаю разные суммы для каждой модели карандаша.
Прошу прощения если я что-то упускаю. Я публикую здесь впервые. Я изо всех сил стараюсь воспроизвести код. Я тоже новичок в Python.