Я работаю над проектом корреляции многих (многих тысяч) строк доменных имен друг с другом.
Я специально ищу последовательные или автоматически сгенерированные домены, которые кажутся связанными.
Я собираюсь раздеть www. и .com .ca и т. д. (TLD и субдомены) перед остальной частью процесса.
(intranet.superdomain1.com = superdomain1;)
Проблема, которую я пытаюсь обойти, заключается в том, что алгоритмически / автоматически сгенерированные домены не следуют одним и тем же системам. Некоторые увеличиваются цифрами, другие - буквами, другие - римскими цифрами или греческим алфавитом и т. Д.
Пока мое обучение направляет меня по пути:
Построение суффиксного массива ,
быть направленным на
FuzzySearching
для
Соответствие подстроки ( алгоритм Кнута – Морриса – Пратта за комментарий Марка Эмери Здесь )
чтобы наконец вычислить
Оценка различий подстроки ( алгоритм Левенштейна * , использующий что-то вроде this .)
за каждый суффикс.
В целом, вся эта установка кажется выполнимой, а также запутанной и действительно сложной.
Я надеюсь перепроверить, прежде чем идти по этой дороге:
Существует ли более простой / уже существующий способ достижения цели корреляции смешанных строк?
/ * Примеры различных манипуляций со строками, которые я надеюсь уметь коррелировать * /
Пример последовательности:
superdomain1.com
superdomain4.com
superdomain7.com
и т.д.
// предположим, что мы знаем только некоторые из них, но ищем корреляцию с использованием простых инкрементальных систем.
Пример "Сгенерировано":
1c2f-superdomain.com
7g3s4.superdomain.com, * * тысяча пятьдесят-одна
3d2.superdomain.com
или
1superdom ..., 2sup ..., 3 ..., 4 ... и т. Д.
Я не уверен, что выполнимо, чтобы обработать то, что я называю «Комплексное автоматическое» генерация строки:
cat-1c2f-superdomain.com
cat-7g3s4.superdomain.com
cat-3d2.superdomain.com
dog-1c2f-superdomain.com
dog-7g3s4-superdomain.com
dog-3d2.superdomain.com
bird-1c2f-superdomain.com
bird-7g3s4-superdomain.com
bird-3d2.superdomain.com