Некоторое время назад я пишу маленький скрипт , используя Text :: DeDupe , чтобы удалить дубликаты постов в блоге, прежде чем мне придется на них смотреть.
После прочтения статьи о синтаксической кластеризации в Интернете , на которой основывается реализация, я хотел бы иметь возможность находить перекрывающиеся документы (например, фрагменты блогов в отличие от полного текста, возможно, также цитаты).
Вам известна какая-либо другая реализация на C, C ++ или perl, которую я могу опробовать перед написанием своей собственной?