Я последовал примеру дедупликации под названием gazetteer, в котором грязный набор получает предполагаемую идентификацию из «канонического набора». Пример работает нормально, но это мой вопрос. Допустим, я запускаю пример и отвечаю на все вопросы, чтобы обучить модель, и я получаю свои предложения. Что произойдет, если позже я получу другой файл с совершенно разными строками, которые будут идентифицированы? Нужно ли мне снова отвечать на вопросы? Были ли вопросы в первом туре, где только про канонические и грязные файлы? Нужно ли просто хранить файлы «settings» и «training. json», и тогда я смогу дедуплицировать qith gazetteer, не отвечая на вопросы? Любая помощь с благодарностью