При использовании библиотеки dedupe python в режиме gazetteer, нужно ли снова отвечать на вопросы для нового беспорядочного набора? - PullRequest
0 голосов
/ 14 апреля 2020

Я последовал примеру дедупликации под названием gazetteer, в котором грязный набор получает предполагаемую идентификацию из «канонического набора». Пример работает нормально, но это мой вопрос. Допустим, я запускаю пример и отвечаю на все вопросы, чтобы обучить модель, и я получаю свои предложения. Что произойдет, если позже я получу другой файл с совершенно разными строками, которые будут идентифицированы? Нужно ли мне снова отвечать на вопросы? Были ли вопросы в первом туре, где только про канонические и грязные файлы? Нужно ли просто хранить файлы «settings» и «training. json», и тогда я смогу дедуплицировать qith gazetteer, не отвечая на вопросы? Любая помощь с благодарностью

...