У меня есть Pandas DataFrame, который содержит предложения и соответствующие им токены, такие как:
sent_id id token
1 1 1 my
2 1 2 name
3 1 3 is
4 1 4 John
5 1 5 .
6 2 1 John
7 2 2 is
8 2 3 a
9 2 4 good
10 2 5 man
11 2 6 .
...
Я хочу удалить дублированные предложения из этого кадра данных, то есть на основе идентификатора предложения, удалить все строки, если токены совпадают ранее. Например, если есть другое предложение с токенами "my name is John ."
(с тем же порядком), я хочу удалить все строки этого предложения. Как мне этого добиться? Спасибо.