Как можно использовать TF-IDF для программирования обнаружения плагиата исходного кода? - PullRequest
0 голосов
/ 24 февраля 2019

Я кратко понимаю, как работает TF-IDF, для обнаружения плагиата в статьях это имеет смысл.

Теперь мне сказали использовать его против исходного кода программирования, как это может работать?В статье большинство слов на естественном языке слова говорят по-английски, вы можете сосчитать эти словаТеперь в исходном коде каждый человек может определять все виды странных имен переменных, поэтому этот подсчет слов не имеет для меня особого смысла.

Даже если я просто хочу посчитать имя функции, мое собственное имя функциитакже может быть странным, в то время как имена функций системы / библиотеки полезны для TF.

Кто-нибудь может помочь объяснить больше?Спасибо!

...