AFAIK никто не реализовал алгоритм, который принимает набор строк и подстрок и возвращает одно или несколько регулярных выражений, которые бы соответствовали заданным подстрокам внутри строк. Так, например, если бы я дал своему алгоритму два примера:
string1 = "fwef 1234 asdfd"
substring1 = "1234"
string2 = "asdf456fsdf"
substring2 = "456"
Алгоритм вернул бы мне регулярное выражение "[0-9] *". Я знаю, что это может дать более одного регулярного выражения или даже никакого возможного регулярного выражения, и вы можете найти 1000 причин, по которым такой алгоритм будет почти невозможно реализовать до совершенства. Но что самое близкое?
Меня тоже не волнует само регулярное выражение. По сути, мне нужен алгоритм, который берет сэмплы, как указано выше, а затем находит в них шаблон, который можно использовать для простого поиска «вида» текста, который я хочу найти в строке, без необходимости писать какие-либо регулярные выражения или код вручную. .