Сначала я могу сказать вам, что вашему алгоритму не понадобится модель машинного обучения, это можно сделать классическим способом
У меня есть предложение для вас, во-первых, вы создадите массив для каждого предложения он будет хранить каждое его слово , например:
sentence_a = 'The cat took the mat.'
sentence_b = 'The rat took the mat.'
sentence_c = 'The cat and rat took the mat.'
list_a = list()
list_b = list()
list_c = list()
# you will parse each sentence and store the words into the lists
# list_a = [ 'The','cat','took' ... etc ]
# list_b = [ 'The','rat','took' ... etc ]
# ...
Затем, вы сравните каждый из списков с первым списком , и каждое отдельное предложение будет сохранено в третьем списке, например:
list_differences = list() # will store differences
# comparing sentence a and b
for s1,s2 in zip(list_a,list_b):
if ( s1 != s2 ) :
list_differences.append( s1 )
list_differences.append( s2 )
# list_differences = [ 'cat','rat' ]