Я пытаюсь "перенести" преобразование группировки строк из PowerQuery в Python. В PowerQuery запрос выглядит примерно так:
#"Grouped Rows" = Table.Group(Source, {"col1", "col2", "col3", "col4"}, {{"Count", each Table.RowCount(_), type number}}),
#"Removed Columns" = Table.RemoveColumns(#"Grouped Rows",{"Count"}),
В python я пытался использовать что-то вроде
df1 = df.groupby(["col1", "col2", "col3", "col4"]).apply(lambda x:x)
Однако результаты получаются совсем по-другому. Обратите внимание, что есть больше столбцов вне оператора groupby. Должен ли я сначала выбрать только нужные мне столбцы, а затем выполнить группировку, или я должен сгруппировать, а затем выбрать столбцы?
Существует также столбец суммирования, который был добавлен впоследствии в PowerQuery, но я добавил его ранее на этапах с кодом Python. Я полагаю, что вы исключите этот столбец из группы.
Было бы также полезно, если бы кто-то мог объяснить, что именно происходит, когда вы группируете мои несколько столбцов. И, возможно, почему два метода ведут себя по-разному. Это похоже на выделение только этих столбцов и удаление повторяющихся строк?