Question

Я пытаюсь создать скрипт, который просматривает список строковых файлов и сообщает о наиболее часто встречающихся между ними подстроках.

Например:

Здравствуйте, я строка первая.Я люблю яблоки и апельсины.Мы все здесь.
Здравствуйте, я вторая строка.Я люблю яблоки и апельсины.Мы все здесь.
Здравствуйте, я строка третья.Я люблю яблоки и апельсины.Мы все здесь.
Здравствуйте, я четвертая строка.Я люблю яблоки и апельсины.Мне нравится выражать свою индивидуальность.

Мне бы хотелось, чтобы скрипт сообщал мне, каковы общие элементы между строками выше определенного порога (например, 5 символов).

В идеале я бысказал

"Я люблю яблоки и апельсины" встречается во всех файлах
"Здравствуйте, я строка" встречается во всех файлах
"Мы все строки здесь"встречается в трех файлах.

Если существуют функции для этого в технологиях, с которыми я знаком - SQL, Javascript, PHP, Ruby или Bash - я буду очень счастлив ...

Большое спасибо,

Джек

scoffey · Answer 1 · 13 января 2011

Это сложная проблема, известная как Самая длинная общая подпоследовательность .

Вот реализация Python алгоритма с использованием динамического программирования: http://www.algorithmist.com/index.php/Longest_Common_Subsequence

Я не думаю, что любая стандартная библиотека (C, Java, PHP, Python, Javascript, Ruby и т. Д.) Поставляется с такой функцией. Но вы можете найти здесь реализации: http://www.google.com/codesearch?q=%22longest+common+subsequence%22

Как сравнить набор строк, чтобы найти общие подстроки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сравнить набор строк, чтобы найти общие подстроки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы