Это набор данных , с которым я работаю. Я пытаюсь написать запрос / функцию, которая будет проходить через столбец title
и идентифицировать оригиналы и сиквелы на основе сходства строк. Я хочу, чтобы он улавливал сходства в характере и мог различать, например, Transformers
и Transformers: Age of Extinction
. Я думаю, используя year
, чтобы помочь R определить, какие из них являются оригиналами, а какие являются продолжениями.
Если возможно, это результат, который я ищу:
Title | Lifetime_Gross | Year | Kind
Toy Story | $$$ | 1995 | Original
Toy Story 2| $$$ | 1999 | Sequel
Transformers| $$$ | 2007 | Original
Transformers2 | $$$ | 2009 | Sequel
and so on.