У меня есть такой фрейм данных,
df
col1 col2
A 'the value is zero'
B 'this is a cat'
C 'the value is one'
D 'nothing is here'
E 'the colour is blue'
F 'this is dog'
G 'empty sequence'
H 'the colour is red'
I 'the colour is green' 1
Теперь я хочу, чтобы строки аналогичного типа помечались как 1, а другие как ноль, поэтому итоговый фрейм данных должен выглядеть следующим образом:
col1 col2 col1
A 'the value is zero' 1
B 'this is a cat' 1
C 'the value is one' 1
D 'nothing is here' 0
E 'the colour is blue' 1
F 'this is dog' 1
G 'empty sequence' 0
H 'the colour is red' 1
I 'the colour is green' 1
0 и 1 можно получить с помощью функции SequenceMatcher (SequenceMatcher (None, s1, s2) .ratio ()) и с некоторым пороговым значением мы можем сделать его равным нулю или единице.
Но если я использую циклы for, чтобы найти сходство между собой, выполнение займет больше времени. Ищите pandas ярлыки / pythoni c способ сделать это эффективно.