Сходство N-Gram, TF-IDF и Cosine в Perl - PullRequest
0 голосов
/ 27 июня 2011

Я пытаюсь выполнить какой-то паттерн 'майнинг' в части из нескольких слов в каждой строке. Я провел анализ N-граммы, используя модуль Text :: Ngrams в Perl, который дает мне частоту каждого слова. Я, однако, довольно смущен поиском шаблонов в этом тексте.

tf-idf находит частоту также, я полагаю, но чем она отличается от анализа Ngram, который я проводил, и как помогает измерение подобия.

Пожалуйста, есть ли какие-нибудь perl-модули или фрагменты кода, которые я мог бы понять для некоторых из этих концепций.

Пожалуйста, я из физики, но мне нужно распознать некоторые паттерны, так что я немного новичок в некоторых из них, и я буду признателен за хороший справочник по этим темам.

1 Ответ

0 голосов
/ 27 июня 2011

Если у вас есть куча N документов, и вы:

Хотите узнать, похож ли Документ X (содержащий статью о том, как быть культуристом) на другой Документ Y, содержание которого вы не знаете?,Если документ Y будет «похож» на документ X, он может содержать обычные термины, которые каждый ассоциирует с бодибилдингом - например: поднятие тяжестей, штанги, гантели и, возможно, Арнольд.

Итак, сходство документа X,Документ Y был бы довольно высоким.Один из способов измерить это сходство - использовать угол косинуса между этими двумя документами.

Ссылка на косинус сходства: http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html

Используйте CPAN для поиска для модулей Perl.Например, для вычисления косинусного сходства вы можете попробовать Text :: Document module

...