Я пытаюсь выполнить какой-то паттерн 'майнинг' в части из нескольких слов в каждой строке. Я провел анализ N-граммы, используя модуль Text :: Ngrams в Perl, который дает мне частоту каждого слова. Я, однако, довольно смущен поиском шаблонов в этом тексте.
tf-idf находит частоту также, я полагаю, но чем она отличается от анализа Ngram, который я проводил, и как помогает измерение подобия.
Пожалуйста, есть ли какие-нибудь perl-модули или фрагменты кода, которые я мог бы понять для некоторых из этих концепций.
Пожалуйста, я из физики, но мне нужно распознать некоторые паттерны, так что я немного новичок в некоторых из них, и я буду признателен за хороший справочник по этим темам.