PHP генерирует случайные фразы из текста - PullRequest
0 голосов
/ 06 ноября 2011

Я пытаюсь создать уникальные случайные фразы из текста для обнаружения плагиата.Идея заключается в том, что автор отправит статью, а затем php создаст фразы из текста, которые будут использоваться для обнаружения плагиата

Рассмотрим следующее предложение:

Это очень длинная и скучная статьяи эта статья является плагиатом.

Основываясь на приведенном выше тексте, система определит, сколько фраз будет сгенерировано, т.е. в статье длиной 20 слов будет 3 фразы.Максимальная сгенерированная фраза может содержать не менее двух слов и не более 3 слов.Возвращенный результат будет таким:

  • очень длинный
  • статья плагиат

Я написал следующий код

$words = str_word_count($text, 1);
$total_phrases_required = count($words) /2;
//build phrases

IНужен подсказка, как завершить оставшуюся часть.

1 Ответ

0 голосов
/ 06 ноября 2011

Вы можете разбить текст на два массива предложений, а затем использовать функцию типа Similar_text для рекурсивной проверки на наличие похожих строк.

Еще одна идея, чтобы найти откровенный пауперизм. Вы можете снова разбить текст на предложения. Но затем поместите в базу данных и выполните запрос, который выбирает количество столбцов индекса и групп по столбцу предложений. Если какой-либо результат вернется больше 1, вам нужно точное совпадение для этого предложения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...