Идентификация и классификация похожих строк в наблюдениях под одной и той же переменной - PullRequest
0 голосов
/ 06 сентября 2018

Это набор данных , с которым я работаю. Я пытаюсь написать запрос / функцию, которая будет проходить через столбец title и идентифицировать оригиналы и сиквелы на основе сходства строк. Я хочу, чтобы он улавливал сходства в характере и мог различать, например, Transformers и Transformers: Age of Extinction. Я думаю, используя year, чтобы помочь R определить, какие из них являются оригиналами, а какие являются продолжениями.

Если возможно, это результат, который я ищу:

Title      | Lifetime_Gross | Year   | Kind
Toy Story  | $$$            | 1995   | Original
Toy Story 2| $$$            | 1999   | Sequel
Transformers| $$$           | 2007   | Original
Transformers2 | $$$         | 2009   | Sequel
and so on.
...