Я кратко понимаю, как работает TF-IDF, для обнаружения плагиата в статьях это имеет смысл.
Теперь мне сказали использовать его против исходного кода программирования, как это может работать?В статье большинство слов на естественном языке слова говорят по-английски, вы можете сосчитать эти словаТеперь в исходном коде каждый человек может определять все виды странных имен переменных, поэтому этот подсчет слов не имеет для меня особого смысла.
Даже если я просто хочу посчитать имя функции, мое собственное имя функциитакже может быть странным, в то время как имена функций системы / библиотеки полезны для TF.
Кто-нибудь может помочь объяснить больше?Спасибо!