Создание кадра данных из разделенного перетасованного файла CSV для соответствия исходному файлу CSV, затем вычисление сумм для сопоставления - PullRequest
0 голосов
/ 06 мая 2020

У меня есть два файла CSV, которые были отделены от исходного файла CSV, и строки были перемешаны. Я хотел бы объединить два разделенных файла в один, чтобы он соответствовал оригиналу, чтобы я мог выполнять вычисления. Дело в том, что когда я вычисляю сумму столбца sales_amount из оригинала, она не совпадает с суммой из столбца sales_amount двух объединенных файлов. Я предполагаю, что строки из объединенного файла CSV не соответствуют исходному, поэтому суммирование будет неправильным? Я думал, что это не имеет значения, используя функцию группировки Pandas.

Исходный CSV имеет столбцы:

  • Pen_mode
  • sale_date
  • Pen_brand
  • sales_amount

Разделенные файлы CSV содержат столбцы:

  • Первый файл:

    • Pen_mode
    • дата_продажи
  • Второй файл:

    • Pen_brand
    • sales_amount

... с перетасованными строками.

Ниже я думал, что объединит два файла и создаст идеальное совпадение, но, поскольку строки перемешаны, я не могу вычислить правильная сумма продаж из исходного CSV.

df0 = pd.read_csv("sales_original.csv")
df1 = pd.read_csv("sales_split_1.csv")
df2 = pd.read_csv("sales_split_2.csv")
df2_join = df2[["pencil_brand", "sales_amount"]]
df3 = df1.join(df2_join)

Когда я ввожу команду

df0.groupby("pencil_model").sum()
df3.groupby("pencil_model").sum()

, я получаю разные суммы для каждой модели карандаша.

Прошу прощения если я что-то упускаю. Я публикую здесь впервые. Я изо всех сил стараюсь воспроизвести код. Я тоже новичок в Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...