Как обнаружить дублирующийся текст с некоторой нечеткостью - PullRequest
3 голосов
/ 24 октября 2008

Некоторое время назад я пишу маленький скрипт , используя Text :: DeDupe , чтобы удалить дубликаты постов в блоге, прежде чем мне придется на них смотреть.

После прочтения статьи о синтаксической кластеризации в Интернете , на которой основывается реализация, я хотел бы иметь возможность находить перекрывающиеся документы (например, фрагменты блогов в отличие от полного текста, возможно, также цитаты).

Вам известна какая-либо другая реализация на C, C ++ или perl, которую я могу опробовать перед написанием своей собственной?

1 Ответ

2 голосов
/ 26 апреля 2010

SpotSigs, кажется, подходит мне как раз, вот несколько ссылок:

Код soruce для этого модуля размещен на GitHub:

http://github.com/jzawodn/perl-text-spotsig

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...