У меня есть список из 1500 строк из внешней базы данных, и со временем, когда группа бизнес-пользователей управляла ими, у них появились повторяющиеся подстроки, которые имеют семантическое значение.
Я создаюfront-end и хотел бы предоставить пользователю выпадающий список фильтрации этих подстрок.
Например, если у меня есть входные строки:
- US foo
- Американский бар (Неактивно)
- Британская летучая мышь
- Британский баз (Неактивно)
- AU womp
- AU крыса
Я хочу вернуться:
- США
- Великобритания
- AU
- Неактивно
Мои первые мыслииметь пороговый параметр и список разделителей.Для вышесказанного я мог бы сказать, что threshold = .3 и разделители - это пробел, (, и).
Затем выполните string.split, используя разделители, и используйте структуру данных, подобную набору, который считает повторяющиеся элементы (?) ...
Я не пытаюсь, чтобы кто-то сделал мою работу за меня здесь - совет по поводу подхода, который следует взять у кого-то, кто сделал это, было бы замечательно.