Question

Некоторое время назад я пишу маленький скрипт , используя Text :: DeDupe , чтобы удалить дубликаты постов в блоге, прежде чем мне придется на них смотреть.

После прочтения статьи о синтаксической кластеризации в Интернете , на которой основывается реализация, я хотел бы иметь возможность находить перекрывающиеся документы (например, фрагменты блогов в отличие от полного текста, возможно, также цитаты).

Вам известна какая-либо другая реализация на C, C ++ или perl, которую я могу опробовать перед написанием своей собственной?

dpavlin · Answer 1 · 26 апреля 2010

SpotSigs, кажется, подходит мне как раз, вот несколько ссылок:

Код soruce для этого модуля размещен на GitHub:

http://github.com/jzawodn/perl-text-spotsig

Как обнаружить дублирующийся текст с некоторой нечеткостью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обнаружить дублирующийся текст с некоторой нечеткостью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы