При нахождении строки значение было помечено как дублированное Пандами - PullRequest
0 голосов
/ 11 июля 2019

Я работаю над следующим Pandas Dataframe

enter image description here

Таблица отсортирована по столбцу 'freq', и я добавил новыйстолбец «дублирован», который указывает, являются ли «no_ws_term» или «stemmed_term» или «stemmed_after_ws_clean» или «stemmed_before_ws_clean» дубликатами, при этом первое значение (более высокая частота) не является дубликатом.

df['duplicated'] = df.duplicated(..., keep='first')

Pandas 'дублированная функцияпозволяет сохранить первое или последнее значение как не дублированные, а все остальные дублированные значения как дублированные.

Как я могу получить это «первое» или «последнее» значение, чтобы на его основе строки были помечены как дублированные.

Если я посмотрю в следующем примере, что яПопытка сделать это добавить дополнительный столбец, который будет указывать для строк, которые были помечены как дублированные, что является термином «первый», в этом примере я хотел бы иметь дополнительный столбец, который для каждого из дублированных терминов этоВ этом примере в первой строке будет использоваться термин «чили».

enter image description here

...