У меня есть много поставщиков в базе данных, все они отличаются по некоторым аспектам своих данных. Я хотел бы сделать правило проверки данных, основанное на предыдущих данных.
Пример:
A: XZ-4, XZ-23, XZ-217
B: 1276, 1899, 22711
C: 12-4, 12-75, 12
Цель: если пользователь вводит строку 'XZ-217' для поставщика B, алгоритм должен сравнить предыдущие данные и сказать: эта строка не похожа на предыдущие данные поставщика B.
Есть ли какой-нибудь хороший способ / инструменты для достижения такого сравнения? Ответом может быть какой-то общий алгоритм или модуль Perl.
Edit:
«Сходство» трудно определить, я согласен. Но я бы хотел остановиться на алгоритме, который может анализировать предыдущие около 100 образцов, а затем сравнивать результаты анализа с новыми данными. Сходство может основываться на длине, на использовании символов / чисел, шаблонов создания строк, аналогичных начала / конца / середины, имеющих несколько разделителей.
Я чувствую, что это нелегкая задача, но, с другой стороны, я думаю, что она имеет очень широкое применение. Надеюсь, уже есть некоторые намеки.